図書館員のコンピュータ基礎講座

  • TOP
  • 音声データ

音声データ

ここでは、電子図書館を構築するための基礎知識として、音声データを取り上げます。

サンプリングと量子化

【2006-08-01更新】

音は空気の振動によって発生します。この振動をマイクロフォンで電気信号に変換することで、アナログの波形として記録することができます。アナログからデジタルへ変換する方法として最も普及しているのが、音楽CD(CD-DA)にも採用されているPCM(ピーシーエム;Pulse Code Modulation)という方式です。
PCMは、アナログの波形を時間経過と電気信号レベルという2つの要素を用いて数値化することでデジタル化します。時間経過を分割して数値化することをサンプリング(Sampling = 標本化)と言い、1秒間に何回サンプリングするかの頻度をサンプリング周波数(Sampling Rate = サンプリング・レート)と言います。サンプリング周波数は、Hz(ヘルツ)という単位で表します。また、サンプリングしたそれぞれのデータの電気信号レベルを分割して数値化することを量子化(Quantization)と言い、ビット(bit)という単位で表します。アナログの電気信号レベル値は実数(小数点を伴う数)でありえますが、量子化したデジタルの値は整数(小数点を伴わない数)である必要があるため、値の近似値化を行います。例えば、ある時点の電子信号レベル値が9.2であった場合は、9(2進数では1001)という値として扱います。


アナログ音声信号


サンプリングおよび量子化


サンプリングや量子化の段階が多いほどアナログの波形に近くなり、原音に近い高音質な録音が可能になりますが、その分、ファイルサイズは大きくなります。


デジタル音声信号


高精細なデジタル音声信号


ポイント
音楽CDは、44.1kHz、16bitで録音されています。つまり、1秒間を44,100に分割して数値に変換し、それぞれの電気信号レベルをを65,536段階で記録していることになります。44.1kHzは、人間の普通に聞くことができる音(可聴音)は20Hz~20kHz程度であり、原理的には再生周波数は録音周波数の約半分になることから決められています。
しかし、人間は可聴域を超える音も音色や響きとして感じることができると言われているため、DVD-Audioでは96kHzまで記録できるようになっています。

ファイル形式

【2008-09-23更新】

音声ファイルの形式には様々なものがありますが、よく使用されるものを紹介します。進歩が早い分野であるため、情報が古い可能性があります。音声ファイルはサイズが非常に大きくなるため、多くは、可聴域を超える音を切り捨てるという非可逆圧縮により、サイズを小さくしています。

AAC

AAC(エイエイシー;Advanced Audio Coding)は、MPEG-2またはMPEG-4で用いられる非可逆の音声圧縮方式です。MP3と同程度の音質で約1.4倍の圧縮が可能です。Apple社のソフトウェアiTunes(4.5以降)や携帯音楽プレーヤーiPodなどで採用されている形式で、Windowsに標準搭載されているWindows Media Playerでも再生可能です。Apple社の音楽配信に採用されているFairPlayという著作権保護機能を導入した形式の拡張子は.m4pです。また、iTunes(4.5以降)やiPodでは、Apple Lossless(アップルロスレス)と言う可逆圧縮方式も採用されています。

拡張子: .aac、.mp4、.m4a.、m4b

AIFF

AIFF(エイアイエフエフ、アイフ;Audio Interchange File Format)は、Apple社が開発したMacintoshの標準音声ファイル形式です。ステレオにもモノラルにも対応しており、通常は非圧縮です。しかし、AIFF-C(エイアイエフエフシー;AIFF-Compression、別名:AIFC)という非可逆圧縮の拡張形式もあり、拡張子は.aifcです。

拡張子: .aif、.aiff

ATRAC

ATRAC(アトラック;Adaptive TRansform Acoustic Coding)は、ソニーが開発した非可逆の音声圧縮方式で、MDなどにも採用されています。音楽CDと同程度の音質を保ったままで、約1/5になると言われています。ソニーの携帯音楽プレーヤーや音楽配信などに採用されているATRAC3(アトラックスリー;Adaptive TRansform Acoustic Coding 3)やATRAC3plus(アトラックスリープラス;Adaptive TRansform Acoustic Coding 3 plus)などの改良形式もあります。ATRACの約半分まで圧縮可能ですが、ATRACとの互換性はありません。また、ATRAC Advanced Lossless(アトラックアドバンスドロスレス、AAL)という可逆圧縮形式もあります。

拡張子: .aa3

AU

AU(エイユー;AUdio)は、Sun Microsystems社が開発した音声ファイル形式で、UNIXやJavaで標準的に用いられています。

拡張子: .au

Monkey's Audio

Monkey's Audio(モンキーズオーディオ)は、MonkeysAudio.com社が開発した音声ファイル形式で、約60%の可逆圧縮が可能です。著作権保護機能は備えていません。

拡張子: .ape

MP3

MP3(エムピースリー;MPEG Audio Layer 3)は、MPEG-1の音声圧縮規格の一部であるMPEG-1 Audio Layer-3を指します。音楽CDと同程度の音質を保ったままで、約1/11(128kbps)まで非可逆圧縮できると言われています。著作権保護機能は備えていません。

拡張子: .mp3

Ogg Vorbis

Ogg Vorbis(オッグボービス)は、Xiph.Org Foundationが開発した非可逆の音声圧縮方式です。Oggがコンテナ、Vorbisがコーデック(Codec)で、合わせてOgg Vorbisと呼びます。Oggのコンテナは、RFC 3533外部へのリンクとして標準化されています。音質はMP3と同等以上だと言われています。MP3やWMAとは異なり、アプリケーションへの導入に特許料等が一切かからないという特徴があります。

拡張子: .ogg

RealAudio

RealAudio(リアルオーディオ)は、Progressive Networks社(現RealNetworks社)が開発した音声圧縮方式です。通常は非可逆圧縮形式ですが、RealAudio Lossless(リアルオーディオロスレス)という可逆圧縮形式も選択できます。音声やビデオ、テキストなどの様々なマルチメディア・データを扱うことができ、ストリーミングにも対応しています。RealAudio Playerというソフトで再生できます。

拡張子: .ra、.rm、.ram

WAV

WAV(ウェーブ;Waveform)は、Microsoft社とIBM社が開発したWindowsの標準音声ファイル形式で、WAVEと表記されることもあります。また、Microsoft社が策定した、様々なマルチメディア・データを扱うための共通形式であるRIFF(リフ;Resource Interchange File Format)の1つであるため、RIFF WAV(リフウェーブ;Resource Interchange File Format Waveform)とも呼ばれます。圧縮方式は規定されていません。通常は非圧縮で用いられるため、非常にファイルサイズが大きくなりますが、任意の圧縮方式を適用することもできます。

拡張子: .wav

WMA

WMA(ダブリューエムエイ;Windows Media Audio)は、Microsoft社が開発したWindowsの標準音声圧縮方式で、Windows Media Playerで再生できます。音楽CDと同程度の音質を保ったままで、約1/22(64kbps)まで非可逆圧縮できると言われています。WMA Lossless(ダブリューエムエイロスレス)という可逆圧縮形式もあります。ストリーミングにもダウンロードにも対応しており、Windows Media Rights Managerと呼ばれる著作権管理機能も備えています。

拡張子: .wma

ポイント
特定時間内に通信・処理できるビット数をビット・レート(Bit Rate)と言い、通常は、1秒あたりのビット数を表すbps(ビーピーエス;bits per second)を単位として用います。ビット・レートを高くすると音質や画質は向上しますが、その分、ファイルサイズは大きくなります。128kbps~160kbps程度のビット・レートで音楽CDの音質に匹敵し、256kbps程度になると音楽CDの音質と区別がつかなくなると言われています。

ポイント
ストリーミング(Streaming)は、サーバーが発信するデータを送受信しながら再生を行なう技術です。ファイル全体のダウンロードが完了するのを待たずに再生を開始できるため、ファイルサイズが大きな音声や動画データの配信技術として主に用いられます。ライブなどのリアルタイムなコンテンツ配信も可能です。また、基本的にクライアント側でデータを保存できないため、違法コピーの防止策としても用いられています。


ダウンロード方式

  1. サーバ上のファイルを完全にダウンロードします。
  2. ユーザ側のPCでダウンロードしたファイルを再生します。


ストリーミング方式

  1. サーバ上のファイルを断片に分割して配信します。
  2. ユーザ側のPCで受信した断片を順次再生します。
  3. 再生後に断片を順次削除します。

ストリーミング配信には、動画・音声などをリアルタイムで配信するためのプロトコルとしてRFC 2326外部へのリンクで定められているRTSP(アールティーエスピー;Real Time Streaming Protocol)や、Microsoft社がWMVを用に独自に定めたMMS(エムエムエス;Microsoft Media Server)を用います。

関連ページ
参照・参考文献
  • DVDオーディオプロモーション協議会 [w] 2006.08.01
  • 動画・静止画・音声ファイルの仕組みと活用法を学ぶ : ファイルを知れば、パソコンが200%便利になる! / 猪狩友則 (Asahiパソコン) 通号397, 2006.2.15, pp.82-93 [s]
ページのトップへ
CyberLibrarian : tips on computer for librarians, 1998-