データ圧縮
出典: フリー百科事典『ウィキペディア(Wikipedia)』
データ圧縮(データあっしゅく)とは、あるデータをそのデータの実質的な性質を保ったまま、データ量を減らした別のデータに変換すること。高効率符号化ともいい、情報理論においては情報源符号化と呼ばれている。
主な目的は、データ転送におけるトラフィックやデータ蓄積に必要な記憶容量の削減といった、資源の節約である。なお、アナログ技術を用いた通信技術においては通信路の帯域幅を削減する効果を得るための圧縮ということで帯域圧縮ともいわれた。
データ圧縮には大きく分けて可逆圧縮と非可逆圧縮がある。また、バイナリデータを対象としたデータ圧縮方式の中には、複数のファイルを1つにまとめて扱えるようにするアーカイブ機能を兼ね備えるものもある。
目次 |
[編集] 主な圧縮アルゴリズム
- 非ユニバーサル符号
- 整数の符号化
- 最小冗長符号あるいはエントロピー符号
- ユニバーサル符号
- 量子化
- スカラー量子化
- ベクトル量子化
- サブサンプリング
- インターレース
- サンプリングファクタ
- 自己相関性を利用した圧縮
[編集] アナログ帯域圧縮
代表的なものとして、TV放送に用いられるNTSC、PALなどのコンポジット映像信号がある。これは、映像信号を輝度成分と色成分に分離し、さらにインターレースと呼ばれる方式を用いて放送信号の伝送に必要な帯域が少なくなるように工夫されている。
また、電話においても多重化するために帯域圧縮を行っている。電話は300 Hz - 3600 Hz程度が伝われば良いので、その範囲以外をカットする手法が使われている。
さらに昔、電話の交換機と交換機の間をPAM(パルス振幅変調)方式を使い0.125μsに分割した信号を多重化して送っていた。後にPAM方式からPCM(パルス符号変調)方式へ変わり、事実上デジタル方式に変わっている。
[編集] デジタル圧縮
[編集] デジタル圧縮の歴史
デジタル符号化されたデータの圧縮の歴史は意外と古く、1830年代に発明されたモールス信号に用いられるモールス符号も圧縮符号の一種である。これは、文字通信の中で比較的出現頻度の高いアルファベットに短い符号を割り当て、出現頻度の低いものには長い符号を割り当てることで、通信に要する手間を省いている。(しかし日本語のモールス符号はそうなっていない。モールス信号の項目を参照)
その後、コンピュータの発達とともに、デジタル通信やファイルの保存でデータ圧縮の重要性が高まったことで研究が進み、1970年代後半頃からはデータ圧縮の要素技術に関する重要な特許も出願されるようになった。特許については、近年でも、オーディオ圧縮で用いられるMP3のライセンスの問題や、ウェブサイトの画像で広く用いられている GIF画像のライセンス問題など多くの紛争を発生させており、それだけデジタル時代の重要な基幹技術であることを示している。
1980年代に入ると音声通信分野のデジタル化の動きが始まり、音声圧縮の分野ではADPCMなど初期の比較的単純な圧縮方式が実用化された。また、パーソナルコンピュータやパソコン通信(ただし、日本では通信自由化以降)が普及するようになり、フリーソフトウェアの分野からもZIPやLHAといった現在も幅広く使用されているファイル圧縮方式も誕生した。
1990年代前半に入ると、音声圧縮や画像圧縮の分野で2005年現在でも広く知られている多くのデータ圧縮方式が発表された。音声(オーディオ)の分野では、1992年に登場したミニディスク (MD) に搭載されているATRACなどがある。また、画像の分野ではJPEG圧縮方式が国際標準規格として勧告され、広く普及した。これらの背景には、集積回路 (IC) の生産技術や設計技術の発達で大規模で高度な処理が行えるICが比較的安価な製品でも搭載可能になった点や、パーソナルコンピュータの急速な性能向上でソフトウェア的な画像処理が容易に行えるようになった点も大きい。
また、動画圧縮の分野でも、この頃、TV会議システム用の動画圧縮方式 (H.261) やビデオCDの圧縮方式 (MPEG-1) も標準化されている。また、パーソナルコンピュータ向けに企業独自の圧縮方式を採用したコーデックも登場するようになった。しかし、動画圧縮の分野では音声圧縮や画像圧縮に比べてさらに高度な技術が要求されるため、まだしばらくの間、業務用や限定的な用途に限られていた。これとは別に、デジタル時代の重要な基幹技術である動画圧縮技術には特許の権益に絡む思惑もあり、この方面でも標準化までに長い時間を要した。
1990年代後半になると、動画圧縮の分野でも国際的な標準規格であるMPEG-2が標準化され、業務用分野から幅広く利用されるようになり、1996年に登場したDVDプレーヤーや、2000年に開始されたBSデジタル放送など、家電製品にも採用されるようになった。
[編集] ファイル圧縮
ファイル圧縮では圧縮前の状態に完全に復元可能な可逆圧縮が用いられる。
ファイル圧縮は、PC分野では1980年代後半頃からパソコン通信の発達とともにLHAやZIPなどの圧縮方式が誕生した。2000年代ではZIPがオペレーティングシステムの垣根を越えて幅広く使われている。
- CAB (Cabinet archive)
- Windowsが標準で利用できる圧縮形式
- GCA, DGCA (G Compression Archive)
- テキストデータに強い日本産圧縮形式
- LHA (Lempel-Ziv & Huffman Archive か?)
- 純日本産の圧縮形式。LZHとも
- RAR
- マルチメディア系の圧縮が得意な形式
- StuffIt
- Macintosh系列で利用される圧縮形式
- ZIP
- 事実上、世界標準の圧縮形式。
- 7z
- 7-zipで扱うことの出来る多機能形式。オープンソース
- pack
- UNIXの初期からある形式。今ではほとんど使われず、compressに取って代わられている。
- compress
- packの置き換えとして商用UNIXで標準で使われている形式。
- gzip (GNU Zip)
- 商用UNIXに標準のcompressには特許の問題があり、フリーのUNIX用にcompressの代用品として開発された。
- bzip (bunzip)
- 特許侵害のために配布が中止された高圧縮形式。算術符号使用
- bzip2 (bunzip ver.2)
- 主にUNIXで使われるオープンソースの高圧縮形式
[編集] 静止画像圧縮
画像圧縮の各方式については画像圧縮のコーデックを参照
代表的なものとしては、インターネットのウェブサイトで広く用いられるJPEG、GIFがある。非可逆圧縮による高能率圧縮を行うものと、劣化を生じさせない可逆圧縮を用いるものがある。
例えば、非可逆圧縮形式のJPEGの場合、一定の画素数のブロックに分割したデータを離散コサイン変換 (Discrete Cosine Transform, DCT) と呼ばれる演算で処理して符号化を行う。
画像圧縮アルゴリズムの評価には、レナなどの画像サンプルが広く使われている。
[編集] 音声圧縮
詳細は音声圧縮を参照
音声圧縮の各方式については音声圧縮のコーデックを参照
音声圧縮では、人の聴覚の特性を利用して高能率の非可逆圧縮を行うものが広く用いられている。非可逆圧縮の代表的な方式としてMP3がある。CDの音声データ (1411.2kbps: 44.1kHz, 16bit, 2ch) を128kbpsのMP3形式に圧縮した場合、圧縮率は約1/11となる。MP3では1/3-1/4ぐらいの圧縮率で原音との差がほぼ識別できない程度の品質を維持することが出来ると言われている。
一方で、まったく劣化を生じさせない可逆圧縮方式を用いたものも増えてきている。 TTA、FLAC、Monkey's Audioなどがその代表である。
[編集] 動画圧縮
動画圧縮の各方式については、動画圧縮のコーデックを参照
代表的なものとしては、DVD-Videoに用いられるMPEG-2、第3世代携帯電話などに用いられるMPEG-4、次世代DVDやワンセグに用いられるH.264がある。
動画では1秒あたり30コマ程度の静止画像に加えて音声データも入る、単純な静止画像圧縮と音声圧縮だけではデータ量が膨大となるため、以下のような動画特有の圧縮を行う場合がある。