MPEG-4 Part 3 (エムペグフォー パート 3)は Moving Picture Experts Group (MPEG)が規格化した国際標準である MPEG-4 の第3部で、オーディオ符号化方式が定義されている。一般的にはMPEG-4オーディオ (MPEG-4 Audio )の名称で呼ばれ、JIS ではMPEG-4音響 の訳語が使われる
[ 1] 。
MPEG-4 オーディオの規格は ISO /IEC 14496-3 で定義され
[ 2]
[ 3] 、
最初の規格は1999年に発行された
[ 4] 。
ISO/IEC 14496-3 の翻訳として JIS X 4332-3("音響映像オブジェクトの符号化—第3部:音響")がある[ 1] 。
MPEG-4オーディオは多くのオーディオ符号化方式を集めたもので、音声 や音楽 、自然な音や合成した音など様々な信号を扱うことができ、非常に低いビットレート から全く劣化の無い高ビットレート まで広い範囲のビットレート と音質 での符号化方式をサポートしている。広く知られている MPEG-4 AAC の他に、ロスレス圧縮 を行う MPEG-4 ALS や MPEG-4 SLS 、MPEG-4 CELP 、TwinVQ 、HVXC (Harmonic Vector eXcitation Coding)、HILN (Harmonic and Individual Lines plus Noise)、TTSI (Text To Speech Interface)など様々な符号化技術が規格化されている。
MPEG-4 は、それ以前の様々な規格と異なり特定のアプリケーションをターゲットとしたものではなく、蓄積、インターネット通信 、携帯電話 、テレビ電話 、デジタル放送 など全てのアプリケーションで使えることを目的としている。MPEG-4オーディオは性質の異なるツールの組み合わせからなり、アプリケーションの内容に応じて組み合わせて使えるようになっている。
概要
ISO /IEC の Moving Picture Experts Group によるオーディオ符号化標準の制定作業は1988年から始まり
[ 5] 、
ビデオCD などの蓄積系メディアを対象とした MPEG-1 、放送・通信・映画などでの高音質オーディオを対象とした MPEG-2 オーディオなどが規格化された。
MPEG-4 は元々モバイル機器 向けの超低ビットレート の符号化規格として1993年夏に制定作業が始まった
[ 6] 。
その後対象とする範囲が拡大され、将来の様々なアプリケーションに対応可能な一般的な符号化標準になった。
以前の規格である MPEG-1 や MPEG-2 オーディオとの考え方の違いは以下の通りである[ 3] 。
保存、転送、多重化 の形式の定義
低ビットレート 符号化のサポート
複数のツールの組み合わせによるオブジェクトベースの符号化
合成音(音声/音楽)のサポート
誤り耐性の機能
スケーラビリティの機能
以前の規格は符号化方式のみを定義していたが、MPEG-4 ではファイル 形式や複数のデータの多重化 形式を定義している。
また、モバイル機器などのため、超低ビットレート の符号化(2 kbps ~ の音声符号化 、4 kbps ~ の音楽符号化)や誤り耐性の機能がサポートされている。テキストベースの情報から音声や音楽を合成する合成音の機能を用いればさらに低いビットレートを実現できる。
さらに、要求される QoS に応じ複数のビットレート でデータを取り出せるスケーラビリティ機能がある。
異なった要素技術はオーディオオブジェクト として組み合わせて使うことができ、様々なアプリケーションの要求に応じられる柔軟性を持つ。
詳細
MPEG-4 オーディオは、様々なアプリケーションに対応するため、異なった多くの要素技術(ツール)から構成されている。
ツールは大きく分けて、人間の音声 のみを扱う音声符号化 ツールと、音楽など一般的なオーディオ信号の非可逆圧縮 を行うオーディオ符号化ツール、ロスレス圧縮 を行うロスレスオーディオ符号化ツール、再生側で音楽合成を行うの合成ツール、及びそれ以外の各種ツールに分類できる[ 3] 。
音声符号化ツール(Speech coding tools)
自然音声符号化 ツール(Natural speech coding)- 人間の音声 を扱うツール
音声合成 インタフェース(Text-to-speech interface、TTSI)
MPEG-4 Hybrid/Multi-Level Scalable TTS Interface
オーディオ符号化 ツール(Audio coding tools)- オーディオ信号の非可逆圧縮 ツール
汎用オーディオ符号化ツール(General Audio coding tools)- MPEG-4 AAC など
MPEG-4 AAC (Advanced Audio Coding)
TwinVQ
MPEG-4 low delay
MPEG-4 BSAC(Bit Sliced Arithmetic Coding)
MPEG-4 SBR (Spectral Band Replication、スペクトル帯域複製)
パラメトリックオーディオ符号化ツール(Parametric audio coding tools)- 音楽などをパラメータ化して表現
MPEG-4 HILN (Harmonic and Individual Lines plus Noise)
MPEG-4 SSC(SinuSoidal Coding)
ロスレスオーディオ符号化 ツール(Lossless audio coding tools)- オーディオ信号のロスレス圧縮 ツール
合成ツール(Synthesis tools)- 再生側で音楽を合成するツール
MPEG-4 Structured Audio(SA)
コンポジションツール(Composition tools)- 各種オーディオオブジェクトを組み合わせるツール
スケーラビリティツール(Scalability tools)- ビットレート 拡張性のためのツール
アップストリーム(Upstream)- ストリーミング でのビットレート と音質 の制御ツール
誤り耐性機能(Error robustness facilities)- 誤り耐性を持たせるための各種ツール
MPEG-4オーディオは対象とする範囲が広く使用できるツールも多い。また符号化の際に選択できるパラメータの範囲も広い。特定のシステムのために全ての機能を含めるのはコストなどを考えると現実的ではないため、MPEG-4オーディオでは標準的な組み合わせがオーディオプロファイル としてあらかじめ用意されている。
サブパート
ツールの仕様はMPEG-4オーディオの各サブパート(Subpart)で定義されている。
MPEG-4オーディオの規格は以下のサブパートからなる[ 3] 。
Subpart 1 : メイン
Subpart 2 : 音声符号化(Speech coding)- HVXC
Subpart 3 : 音声符号化(Speech coding)- CELP
Subpart 4 : 汎用オーディオ符号化(General Audio coding)- AAC , TwinVQ , BSAC
Subpart 5 : Structured Audio(SA)
Subpart 6 : 音声合成 インタフェース(Text-to-speech interface、TTSI)
Subpart 7 : パラメトリックオーディオ符号化(Parametric Audio Coding)- HILN
Subpart 8 : 高音質オーディオ用パラメトリック符号化の技術的な説明
Subpart 9 : MPEG-4 での MPEG-1 /MPEG-2 オーディオ
Subpart 10: オーバーサンプルされたオーディオでのロスレス符号化の技術的な説明(MPEG-4 DST )
Subpart 11: Audio Lossless Coding
Subpart 12: Scalable Lossless Coding
エディション
MPEG-4オーディオ標準のエディションは以下の通り。MPEG-4オーディオの仕様は固定したものではなく市場のニーズなどに応じて拡張されている。追加仕様は各エディションに対する追補(Amendment)として発行され、多くは次のエディションで本来の仕様と統合される。
第1版は仕様の確定が目標とする期日に間に合わなかったためバージョン 1/2 の2回に分けて発行され、翌年に第2版として統合された
[ 7] 。
MPEG-4オーディオのエディションとバージョン
エディション
リリース年
最後の改定
標準
説明
第1版
1999
2001
ISO/IEC 14496-3:1999[ 4]
MPEG-4オーディオ バージョン 1
2000
ISO/IEC 14496-3:1999/Amd 1:2000[ 8]
MPEG-4オーディオ バージョン 2、第1版に対する追補として発行[ 9] [ 10]
第2版
2001
2005
ISO/IEC 14496-3:2001[ 11]
第3版
2005
2008
ISO/IEC 14496-3:2005[ 12]
第4版
2009
改定中[ 13]
ISO/IEC 14496-3:2009[ 2]
音声符号化
音楽などの一般的なオーディオ信号と比べると人間の音声 は声帯 や声道の特性によって決まる固有の波形を持つため、音声固有の符号化方式を用いることで音楽より高い圧縮率での符号化ができる。
MPEG-4 での音声符号化ツールとして、人間の自然な音声の圧縮と復号を行う自然音声符号化 ツールと、さらに低ビットレートで音声を表現可能な音声合成 インタフェースが用意されている。
自然音声符号化ツール
MPEG-4 の自然音声符号化ツールはデジタル放送 、携帯電話 、インターネット電話 、音声データベース などの用途に使用できる。
電話品質の音声を 音声を 2 ~ 24 kbps のビットレート で符号化でき、可変ビットレート の場合は 2 kbps 以下、例えば 1.2 kbps 程度の平均ビットレートでの符号化も可能である[ 14] 。
MPEG-4 HVXC は 2 ~ 4 kbps の超低ビットレートをカバーし、復号時に音声の速度とピッチ(音声の基本周波数)とを独立して変更することができる。
MPEG-4 CELP は2種類のサンプリング周波数(8 kHz, 16 kHz)と 4 ~ 24 kbps のビットレートをカバーする。ビットレート拡張性があり、同じ符号化結果から音質 と帯域幅 が異なる様々なビットレートの情報を取り出すことができる
[ 15] 。
音声合成インタフェース
MPEG-4 では音声合成 の共通インタフェースが定義されている。音声合成の具体的なアルゴリズムは定義しない。
基本となるインタフェース標準では、国際音声記号 (International Phonetic Alphabet、IPA)の形式や、任意の言語でのテキスト形式で音声の情報を指定する。
MPEG-4 Hybrid/Multi-Level Scalable TTS Interface は基本インタフェースを拡張したもので、抑揚 などの韻律 情報も指定でき、より自然な音声が合成できる。ビットストリームは階層構造になっており、階層が増えるに従って韻律 情報も増える[ 16] 。
汎用オーディオ符号化
汎用オーディオ符号化で使われる MPEG-4 AAC は MPEG-2 AAC (ISO /IEC 13818-7)をベースに拡張を行ったもので、音楽などのオーディオ信号を効率よく符号化でき、モノラル 、ステレオ 、マルチチャネル の信号を扱うことができる。6 kbps 以上のビットレート での符号化を行い、1チャネルあたり 64 kbps 以上では、欧州放送連合 (EBU)が定義する厳しい条件下の試験で「(原音と)区別できない音質」の基準を満たしている[ 17] 。
MPEG-2 AAC で標準化された AAC Main、AAC LC、AAC SSR の各方式に加え、MPEG-4 AAC では低ビットレート符号化のための TwinVQ 、リアルタイム通信などの用途向けに符号化遅延を小さくした AAC LD(Low Delay)、ビットストリームを階層化してビットレート拡張性を持たせる BSAC、高域成分をパラメータ化して情報圧縮を行う SBR (Spectral Band Replication)ツールなど多くの機能拡張が行われた。
AAC
AAC、HE-AAC、HE-AAC v2 各プロファイルの階層構造と各ツールの関係
MPEG-2 AAC LC(Low Complexity)プロファイルと MPEG-4 AAC LC から HE-AAC v2 プロファイルまでの変遷
AAC (Advanced Audio Coding)の基本となる方式として以下のものがある。これらは MPEG-2 の AAC プロファイルをベースとしている。
AAC Main
高音質 の AAC 方式。AAC LC の機能を含み、AAC LC より演算量が多い。
AAC LC(Low Complexity)
AAC Main から後方予測(backward prediction)の機能を除いた方式。同じビットレートでの音質は AAC Main より劣るが演算量が少なく伝送誤りに強い。
AAC SSR(Scalable Sample Rate)
周波数帯域の拡張性を持たせるため、4 帯域の帯域分割フィルターを使い帯域ごとに符号化を行う方式。同じビットストリームから帯域の異なる復号結果を得ることができ、用途に応じて演算量の調節ができる。
大まかには、AAC は音楽などの入力信号を MDCT を用いて周波数領域 の係数に変換して長期予測などの処理を行い、聴覚心理学 上の特性を考慮しながら帯域ごとに正規化 と量子化 を行った後にハフマン符号 で符号化する。復号はこの逆の操作を行う。
MPEG-4オーディオでは、量子化 と符号化 の方式として TwinVQ や BSAC(Bit-Sliced Arithmetic Coding)を使う方式も選択できる。また高域成分やステレオ信号を少数のパラメータで符号化し大幅な情報の圧縮を行う HE-AAC プロファイルもある。
TwinVQ
TwinVQ (Transform-domain Weighted Interleave Vector Quantization、変換領域重み付けインターリーブベクトル量子化)はベクトル量子化 の一種で、MPEG-4 では汎用オーディオ符号化での量子化 と符号化の方式として用いられる。
符号長が固定なため通信エラーに比較的強く、圧縮率を状況に応じて変えることができ
[ 18]
[ 19] 、AAC が不得意な低いビットレート(6 kbps ~)での音質が比較的優れている。
BSAC
BSAC(Bit-Sliced Arithmetic Coding)は、ビットストリームを階層化しビットレート拡張性を持たせるための技術で、AAC のハフマン符号 の代わりに用いられる。チャネル当たり 1 kbps の細かいステップのビットレート拡張性が得られる[ 17] 。
BSAC では、AACと同様の方法で求めた量子化 後の周波数領域 の係数のまとまりを、上位ビットから順に階層的にまとめ各階層のビットプレーン ごとにエントロピー符号化 を行う。エントロピー符号化の方式には算術符号 (Arithmetic Code)を用いる。
階層が増えるに従って下位のビット情報が追加されてデータの欠落が少なくなり、より高品質の復号結果を得ることができる。
ビットレートを、ネットワーク状況などの環境に応じて細かい単位でダイナミックに変えることができるため、リアルタイムでの QoS 制御などを実現できる[ 20] 。
BSAC は DMB (Digital Multimedia Broadcasting)で使用されている。
AAC LD
AAC LD(Low Delay)は符号化遅延を抑えた方式で、通信などリアルタイムで符号化と復号が必要な用途に用いられる。アルゴリズムから決まる符号化遅延はサンプリング周波数 48 KHz の場合で 20ms 以下である[ 17] 。
AAC での符号化の単位であるフレーム長を短くするなどの変更を加え、圧縮率の低下と引き換えに符号化遅延を小さくする。
HE-AAC
AAC LC をコアに SBR (Spectral Band Replication、スペクトル帯域複製)ツールを組み合わせて圧縮効率を向上させたプロファイルを HE-AAC (High-Efficiency Advanced Audio Coding)、さらに PS(Parametric Stereo)ツールも組み合わせたものを HE-AAC v2 と呼ぶ
[ 21] 。
HE-AAC は aacPlus や AAC+、HE-AAC v2 は aacPlus v2 や eAAC+ の商標名 で呼ばれることもある。
SBR は、入力信号の低域成分と高域成分の相関 を利用し、高域成分をスペクトル 情報など情報を復元するためのわずかな制御情報のみでパラメータ化し、復号時に低域成分の情報から予測復元することで情報の圧縮を行う。
PS は、ステレオ 信号について同様の考え方を用いるものである。ステレオ信号の左右チャネルの相関 を利用し、左右の両チャネルを足し合わせたモノラル 信号とステレオの空間情報をパラメータ化したサイド情報に分けて符号化を行い、復号時はモノラル信号とサイド情報とから両チャネルの信号を復元する。サイド情報は高音質の場合でも 9 kbps 程度で[ 22] 、左右チャネルをそのまま符号化するのに比べ圧縮効率が高くなる。
両方式とも元の信号と物理的に同じものを復元するのではないが、音響心理学 的に自然な復元を行うことができ、大幅な情報の圧縮ができる。
また、HE-AAC をサポートしていないコーデックでも、AAC LC で符号化されたコア部分のみはデコード可能である。
欧州放送連合 が実施した MUSHRA 法による試験では、HE-AAC で符号化された 48 kbps ステレオ信号の評価は 80点 で、 同じビットレートの AAC や mp3PRO より音質が高かった[ 21] 。
また、Moving Picture Experts Group による HE-AAC と HE-AAC v2 の MUSHRA 法による比較試験では、24 kbps の HE-AAC v2 は同じビットレートの HE-AAC よりはるかに優れており、32 kbps の HE-AAC と同等か優れた評価だった[ 21] 。
パラメトリックオーディオ符号化
パラメトリックオーディオ符号化ツールは、音楽などをパラメータ化し低ビットレートで符号化する方式で、4 kbps~程度の低いビットレートを受け持つ MPEG-4 HILN (Harmonic and Individual Lines plus Noise)
[ 23] や、高音質の音楽を対象とする MPEG-4 SSC(SinuSoidal Coding)[ 22] が含まれる。
HE-AAC v2 で使われる PS(Parametric Stereo、パラメトリックステレオ)も MPEG-4 SSC を構成するツールの1つである
[ 24] 。
MPEG-4 HILN は、音楽を複数の正弦波 とノイズ の組み合わせでパラメータ化する方式で、AAC よりさらに低いビットレートで音楽の符号化を行う。周波数や振幅のパラメータを変換・補間することで、復号時に音楽の速度とピッチとを独立して変更できる特徴がある。
MPEG-4 SSC(SinuSoidal Coding)は MPEG-4 HILN と比べると広帯域で高音質のオーディオ向けの符号化方式で、トランジェントツール(Transient tool)、正弦波ツール(Sinusoidal tool)、ノイズツール(Noise tool)、パラメトリックステレオ符号化ツール(Parametric Stereo coding tool)の 4 つのツールから構成される。トランジェントツールは音が大きく変わる部分をパラメータ化する。正弦波ツールは比較的定常的な部分を周波数、位相、振幅がゆっくりと変化する正弦波の組み合わせでパラメータ化する。ノイズツールは正弦波ツールで表現しきれない成分を特定の時間的エンベロープ とスペクトル エンベロープ を持つノイズとして表現する。パラメトリックステレオ符号化ツールはステレオ信号用で、ステレオ信号をモノラル成分と左右チャネルの違いを表す少数のパラメータで表現する。左右チャネルの違いを表すパラメータとして、フィルターで分割した各周波数領域 でのチャネル間の強度差、位相差、相互相関 を用いる
[ 21] [ 22] 。
Structured Audio
Structured Audio(構造化オーディオ)はデコーダー側で音楽やサウンドエフェクトを合成するツールで、非常に表現力の高い音楽を 2~3 kbps 以下のビットレートで符号化することができる[ 25] 。
Structured Audio は特定の合成方法を定義するのではなく、合成方法を記述するための言語を定義する。
Structured Audio は以下の要素を含む
[ 26] 。
SAOL(Structured Audio Orchestra Language)
合成と制御のアルゴリズムを記述するためのデジタル信号処理 言語。シンタックスはC言語 に近い。楽器やオーディオエフェクトを定義しそれらの関係を記述。
SASL(Structured Audio Score Language)
単純な楽譜と制御のための言語。実際に音を生成するために SAOLで定義されたアルゴリズムの使い方を記述する。楽譜 に相当する。
SASBF(Structured Audio Sample Bank Format)
ウェーブテーブル合成 で使用する波形テーブルの集まりを記述するフォーマット。
MIDI
SASL の代わり、あるいは SASL と組み合わせてGeneral MIDI を使用できる。
実際の音の生成方法として、以下の方法が指定できる[ 26] 。
General MIDI - MPEG-4 のビットストリームやファイル内で General MIDI を使用
ウェーブテーブル合成 - SASBF で記述された波形テーブルにより任意の音を生成
アルゴリズム合成(Algorithmic Synthesis)- SAOL でアルゴリズムを記述することでユーザ定義の合成と制御が可能
オーディオエフェクト - SAOL でアルゴリズムを記述することで合成音/自然音に対するオーディオエフェクトを実現
汎用構造化オーディオ(Generalized Structured Audio)- SAOL によるアルゴリズム記述により様々なデコーダーのエミュレーション が可能
ロスレスオーディオ符号化
汎用オーディオ符号化やパラメトリックオーディオ符号化はオーディオ信号の非可逆圧縮 を行うため、圧縮率は高いが元の信号と全く同じ信号を復元することはできない。マスタリング等、完全性が要求される用途のために、ロスレス圧縮 の仕様として以下がある[ 27] 。
MPEG-4 DST (Direct Stream Transfer)
スーパーオーディオCD で使われるロスレス圧縮方式。オーバーサンプリング された1ビットオーディオ信号を対象とする。
MPEG-4 ALS (Audio Lossless Coding)
スタジオ編集などでも使える高音質のマルチチャネルオーディオ信号を扱うことができるロスレス圧縮方式。量子化ビット数32ビットまでの PCM に対応し、任意のサンプリング周波数 や最大 65536 チャネルまでのマルチチャネル/マルチトラックが扱えるなど[ 28] 、柔軟性が高い。
MPEG-4 SLS (Scalable Lossless Coding)
スケーラブル なロスレス圧縮方式。既存の非可逆圧縮 方式である AAC をコアとして用い、既存の方式で符号化できなかった誤差信号を段階的に符号化することで、データの欠落が少なく音質の高いニアロスレス信号から、オリジナルのオーディオ信号とまったく同じロスレス信号まで、様々な音質 の信号を同じ符号化結果から取り出すことができる。
コンポジションツール
MPEG-4オーディオでは複数の異なるツールを用いた符号化データを「オーディオオブジェクト」として組み合わせることができる
[ 29] 。最終的なサウンドトラックはそれらをミキシング して1つにまとめられる。オーディオオブジェクトを組み合わせるためのフレームワークとして、MPEG-4 BIFS(Binary Format for Scenes)のサブセットである AudioBIFS を用いる。
コンポジションツールを使うことにより、ミキシング の制御や異なるサンプリング周波数 の調整を行うことができ、また信号処理ルーチンのダウンロードにより独自のデジタルフィルターによる処理や各種エフェクト (残響効果 など)を加えることが可能である[ 29] 。
例えば、高音質の背景音楽 とナレーション の組み合わせの場合、MPEG-2 以前の方式では音楽と音声とを合わせた1つのオーディオ信号を AAC などを使い高ビットレート(32 kbps/channel 以上)で符号化するしかないが、MPEG-4 ではオーディオ合成ツールである Structured Audio と音声符号化ツールの MPEG-4 CELP を用い、背景音楽 を 2 kbps 程度、ナレーションを 16 kbps 程度に符号化しコンポジションツールで組み合わせることができる[ 29] 。
さらに音声のみに残響効果を加えたり、ユーザ操作によりバックグラウンドミュージックのみを消したりするなど、1つのトラックにまとめられている場合は難しい操作を容易に実現できる。
誤り耐性機能
MPEG-4 は元々モバイル機器 などデータ転送中に誤りが起こりやすい環境での利用を想定していたこともあり、誤り保護(Error Protection)のためのツールなどが用意されている。
誤りに対する影響の受けやすさは符号化ビットストリーム内で一様ではなく、どの部分にどの程度の保護を行うかは影響の受けやすさに依存する。誤り保護ツールでは UEP(Unequal Error Protection、不均一誤り保護)と呼ばれる以下のような方法で誤り保護を行う
[ 30] 。
符号化結果フレームを複数のサブフレームに分割
サブフレームを誤りに対する影響の受けやすさに応じてクラス分け
クラスに応じた適切な誤り訂正符号 (FEC)や CRC をサブフレームごとに付加
オーバヘッドを減らすため、複数のフレームの同じクラスは1つにまとめられる。
また最終的なフレームはバーストエラーによる影響を減らすためビットの並べ替え(インターリーブ)が行われた後に転送される。
また、これ以外に符号化方式ごとの誤り耐性ツールなども存在する。例えば、AAC 用として以下のツールが定義されている
[ 31] 。
Virtual CodeBooks tool(VCB11)- コードブックにより MDCT 係数の誤りを検出。
Reversible Variable Length Coding tool(RVLC、リバーシブル可変長符号)- 逆方向にも復号が可能な可変長符号 。ハフマン符号 の代わりに使用。
Huffman codeword reordering(HCR)- ハフマン符号化 結果の並べ替えにより優先度の高い係数を固定位置に配置。
AAC で MDCT 係数の符号化に用いられるハフマン符号 は出現確率 の大きい値に短い符号を割り当てる。このため効率的な情報圧縮を行うことができるが、符号長が一定でないためどこかで誤りが発生するとそれ以降の全ての符号が正しく復号できない問題がある。
リバーシブル可変長符号は前後どちらの方向からでも復号できるため、フレームの先頭からだけでなく最後からも復号を行うことができ、誤りの影響範囲を減らすことができる。ハフマン符号化結果の並べ替え(HCR)も、固定位置に配置された優先度の高い係数は正しく復号でき、それ以外の係数も特定のアルゴリズムにより誤りの伝播の影響が少なくなるよう配置されるため、可変長符号による誤り伝播の影響を低減できる。
オーディオオブジェクトタイプ
MPEG-4オーディオでのサウンドトラック は、様々なツールで作成されたオーディオオブジェクト の組み合わせとして表現でき、様々なアプリケーションに柔軟に対応できる[ 32] 。
オーディオオブジェクトには、それぞれタイプを表す ID が与えられる。
オーディオオブジェクトタイプ ID の一覧を以下に示す。
MPEG-4 Audio Object Types[ 2]
オブジェクトタイプID
オーディオオブジェクトタイプ
最初の発行年
説明
1
AAC Main
1999
AAC LC を含む
2
AAC LC (Low Complexity)
1999
MPEG-2 Part 7 Low Complexity profile(LC)に PNS(Perceptual Noise Substitution)を組み合わせたもの
3
AAC SSR(Scalable Sample Rate)
1999
MPEG-2 Part 7 Scalable Sampling Rate profile(SSR)に PNS(Perceptual Noise Substitution)を組み合わせたもの
4
AAC LTP(Long Term Prediction)
1999
AAC LC を含む
5
SBR(Spectral Band Replication )
2003[ 33]
"High Efficiency AAC Profile"(HE-AAC v1)でAAC LC と組み合わせて使用
6
AAC Scalable
1999
7
TwinVQ
1999
低ビットレートでのオーディオ符号化方式
8
CELP (Code Excited Linear Prediction)
1999
音声符号化 方式(4 kbps~)
9
HVXC (Harmonic Vector eXcitation Coding)
1999
超低ビットレート音声符号化方式(2 kbps~)
10
(Reserved)
11
(Reserved)
12
TTSI(Text-To-Speech Interface)
1999
13
Main synthesis
1999
ウェーブテーブル合成(Wavetable synthesis)、アルゴリズム合成(Algorithmic Synthesis)とオーディオエフェクトを含む
14
Wavetable synthesis
1999
General MIDI を含む
15
General MIDI
1999
16
Algorithmic Synthesis and Audio Effects
1999
17
ER AAC LC
2000
誤り耐性(Error Resilient、ER)がある
18
(Reserved )
19
ER AAC LTP
2000
誤り耐性がある
20
ER AAC Scalable
2000
誤り耐性がある
21
ER TwinVQ
2000
誤り耐性がある
22
ER BSAC(Bit-Sliced Arithmetic Coding)
2000
AAC をベースに BSAC(Bit-Sliced Arithmetic Coding)と呼ばれる細粒度のビットレート拡張性のある符号化手法を組み合わせたもの。誤り耐性がある。
23
ER AAC LD(Low Delay)
2000
通話などリアルタイム性を要求される用途に使用する低遅延符号化。誤り耐性がある。
24
ER CELP
2000
誤り耐性がある
25
ER HVXC
2000
誤り耐性がある
26
ER HILN (Harmonic and Individual Lines plus Noise)
2000
誤り耐性がある
27
ER Parametric
2000
誤り耐性がある
28
SSC(SinuSoidal Coding)
2004[ 34] [ 35]
音楽などを対象とした正弦波符号化
29
PS(Parametric Stereo)
2004[ 36] , 2006[ 37]
[ 38]
"HE-AAC v2 Profile" で AAC LC 、MPEG-4 SBR と組み合わせて使用。 PS 符号化ツールは2004年に定義され、オブジェクトタイプは2006年に定義された。
30
MPEG Surround
2007[ 39]
MPEG Spatial Audio Coding(SAC)の名称でも知られるサラウンド オーディオの符号化手法[ 40] [ 41] (MPEG Surround は2007年に ISO/IEC 23003-1 でも定義[ 42] )
31
(Reserved)
32
MPEG-1/2 Layer-1
2005[ 43]
33
MPEG-1/2 Layer-2
2005[ 43]
34
MPEG-1/2 Layer-3
2005[ 43]
"MP3 on MP4" の名称でも知られる
35
DST(Direct Stream Transfer )
2005[ 44]
スーパーオーディオCD (SACD)で使用されるロスレス圧縮 方式
36
ALS(Audio Lossless Coding )
2006[ 38]
オーディオ信号のロスレス圧縮 方式
37
SLS(Scalable Lossless Coding )
2006[ 45]
オーディオ信号のスケーラブルなロスレス圧縮 方式
38
(Reserved)
39
ER AAC ELD(Enhanced Low Delay)
2008[ 46]
低遅延 AAC の改良版、誤り耐性がある
40
SMR(Symbolic Music Representation)Simple
2008
シンボル情報で音楽を表現する SMR(Symbolic Music Representation)は MPEG-4 Part 23(ISO/IEC 14496-23:2008)[ 47] [ 48] で定義されている
41
SMR Main
2008
MPEG-4 Part 23(ISO/IEC 14496-23:2008)で定義[ 47] [ 48]
42
USAC(Unified Speech and Audio Coding)
標準化作業中[ 49] 。音声とオーディオの符号化方式を統合したもの(MPEG-D Part 3 - ISO/IEC 23003-3でも標準化予定)
43
SAOC(Spatial Audio Object Coding)
標準化作業中[ 50] [ 51] [ 52]
44
LD MPEG Surround
標準化作業中[ 51] [ 52] 。低遅延 MPEG サラウンド符号化でのサイド情報(MPEG-D Part 2 - ISO/IEC 23003-2 でも標準化)を表す
オーディオプロファイル
MPEG-4オーディオでは、様々なアプリケーションに対応できるよう、オーディオオブジェクトタイプの標準的な組み合わせがオーディオプロファイルとして定義されている。オーディオプロファイルには、必要とされる演算量に応じて最大サンプリング周波数 などのパラメータが異なる複数のレベルが定義されているものもある。
MPEG-4 Audio Profiles[ 2]
オーディオプロファイル
オーディオオブジェクトタイプ
リリース年
AAC Profile
AAC LC
2003
High Efficiency AAC Profile
AAC LC, SBR
2003
HE-AAC v2 Profile
AAC LC, SBR, PS
2006
Main Audio Profile
AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, Main synthesis
1999
Scalable Audio Profile
AAC LC, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI
1999
Speech Audio Profile
CELP, HVXC, TTSI
1999
Synthetic Audio Profile
TTSI, Main synthesis
1999
High Quality Audio Profile
AAC LC, AAC LTP, AAC Scalable, CELP, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER CELP
2000
Low Delay Audio Profile
CELP, HVXC, TTSI, ER AAC LD, ER CELP, ER HVXC
2000
Natural Audio Profile
AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD, ER CELP, ER HVXC, ER HILN, ER Parametric
2000
Mobile Audio Internetworking Profile
ER AAC LC, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD
2000
HD-AAC Profile
AAC LC, SLS[ 53]
2009[ 54]
ALS Simple Profile
ALS(標準化作業中)[ 50] [ 55]
保存/転送形式
MPEG-4 では、符号化と復号の方法だけではなく、符号化された複数のデータストリームから最終的な1つの基本ストリームにまとめる方法や保存を行う形式の仕様が定義されている。
MPEG-4 が対象とするアプリケーションの範囲は広く要求も様々なであるため、基本ストリームを転送する方法は定義せず、トランスポート層とのインタフェースが DMIF(Delivery Multimedia Interface Format)として ISO/IEC 14496-6 で標準化されている[ 2] 。
オブジェクトベースの符号化の必要が無いMPEG-4オーディオアプリケーション向けには、オーバヘッドの少ない LATM とそれを転送に用いる LOAS が定義されている。
トランスポート層の仕様の例としては、IETF が定義した RFC 3016 (RTP Payload Format for MPEG-4 Audio/Visual Streams)、RFC 3640 (RTP Payload Format for Transport of MPEG-4 Elementary Streams)、RFC 4281 (The Codecs Parameter for "Bucket" Media Types)、RFC 4337 (MIME Type Registration for MPEG-4)などがある。
MPEG-4オーディオの多重化、蓄積、転送形式[ 2]
種別
標準
説明
多重化(Multiplex)
ISO/IEC 14496-1
MPEG-4 Multiplex scheme(M4Mux)
多重化(Multiplex)
ISO/IEC 14496-3
Low Overhead Audio Transport Multiplex(LATM)
蓄積(Storage)
ISO/IEC 14496-3 、 ISO/IEC 13818-7 がオリジナル定義
Audio Data Interchange Format(ADIF)- AAC のみ
蓄積(Storage)
ISO/IEC 14496-12
MPEG-4 ファイルフォーマット(MP4 ) / ISOベースメディアファイルフォーマット
転送(Transmission)
ISO/IEC 14496-3 、 ISO/IEC 13818-7 がオリジナル定義
Audio Data Transport Stream(ADTS)- AAC のみ
転送(Transmission)
ISO/IEC 14496-3
Low Overhead Audio Stream(LOAS)、LATM がベース
注釈・出典
^ a b JIS, JIS X4332-3 - 音響映像オブジェクトの符号化-第3部:音響 , 2002.
^ a b c d e f ISO /IEC (2009年). “ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio ”. ISO. 2010年9月4日 閲覧。
^ a b c d ISO /IEC (2009) (PDF), ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio , ISO, http://webstore.iec.ch/preview/info_isoiec14496-3%7Bed4.0%7Den.pdf 2010年9月4日 閲覧。
^ a b ISO (1999年). “ISO/IEC 14496-3:1999 - Information technology -- Coding of audio-visual objects -- Part 3: Audio ”. ISO. 2010年9月4日 閲覧。
^ Didier Le Gall (1991-04) (PDF), MPEG: a video compression standard for multimedia applications , Communications of the ACM, http://www.cis.temple.edu/~vasilis/Courses/CIS750/Papers/mpeg_6.pdf 2010年9月4日 閲覧。
^ 渡邊 敏明 (2002年). “MPEG-4 の概要 ” (PDF). 東芝. 2010年9月4日 閲覧。
^ Jürgen Herre, Bernhard Grill (2000) (PDF), Overview of MPEG-4 audio and its applications in mobile communications , IEEE, https://web.archive.org/web/20031021020652/http://www.ifip.or.at/con2000/icct2000/icct483.pdf 2010年9月4日 閲覧。
^ ISO (2000年). “ISO/IEC 14496-3:1999/Amd 1:2000 - Audio extensions ”. ISO. 2010年9月4日 閲覧。
^ ISO /IEC JTC 1/SC 29/WG 11 (1999-07) (PDF), ISO/IEC 14496-3:/Amd.1 - Final Committee Draft - MPEG-4 Audio Version 2 , ftp://ftp.tnt.uni-hannover.de/pub/MPEG/audio/mpeg4/documents/w2803/w2803_n.pdf 2010年9月4日 閲覧。
^ Heiko Purnhagen (1999-06-07) (PDF), An Overview of MPEG-4 Audio Version 2 , Heiko Purnhagen, ftp://ftp.tnt.uni-hannover.de/pub/papers/1999/AES17-HP.pdf 2010年9月4日 閲覧。
^ ISO (2001年). “ISO/IEC 14496-3:2001 - Information technology -- Coding of audio-visual objects -- Part 3: Audio ”. ISO. 2010年9月4日 閲覧。
^ ISO (2005年). “ISO/IEC 14496-3:2005 - Information technology -- Coding of audio-visual objects -- Part 3: Audio ”. ISO. 2010年9月4日 閲覧。
^ MPEG. “MPEG standards - Full list of standards developed or under development ”. chiariglione.org. 2010年9月4日 閲覧。
^ ISO/IEC 14496-3:2009 page vii.
^ Karlheinz Brandenburg, Oliver Kunz, Akihiko Sugiyama. “MPEG-4 Natural Audio Coding - Natural Speech Coding Tools ”. 2010年9月4日 閲覧。
^ ISO/IEC 14496-3:2009 page viii.
^ a b c ISO/IEC 14496-3:2009 page ix.
^ NTT PC (2010年). “用語解説辞典 TwinVQ ”. 2010年9月4日 閲覧。
^ NTTヒューマンインタフェース研究所 (1996年). “ようこそTwinVQのふるさとへ(旧ウェブサイト) ”. NTT. 2010年9月4日 閲覧。
^ ISO/IEC 14496-3:2009, Page ix.
^ a b c d Stefan Meltzer, Gerald Moser (2006年1月). “HE-AAC v2 ” (PDF). EBU . 2010年9月4日 閲覧。
^ a b c ISO/IEC 14496-3:2005 Subpart 8, Page 2.
^ ISO/IEC 14496-3:2005 Subpart 7, Page 2.
^ ISO/IEC 14496-3:2005 Subpart 8, Annex 8.A, Page 64.
^ ISO/IEC 14496-3:2005 Subpart 5, Page 4.
^ a b Giorgio Zoia (2005年10月). “MPEG Technologies: Structured Audio ”. chiariglione.org. 2010年9月4日 閲覧。
^ ISO/IEC 14496-3:2009 Page x - xi.
^ 原田 登, 守谷 健弘, 鎌本 優 (2008年2月). “MPEG-4 ALSの性能・応用と関連する標準化活動 ” (PDF). NTT . 2010年9月4日 閲覧。
^ a b c ISO/IEC 14496-3:2009 Page xi - xii.
^ ISO/IEC 14496-3:2005 Subpart 1, Page 64-65.
^ ISO/IEC 14496-3:2005 Page xiii - xiv.
^ ISO/IEC 14496-3:2009 Page vi.
^ ISO (2003年). “Bandwidth extension, ISO/IEC 14496-3:2001/Amd 1:2003 ”. ISO. 2010年9月4日 閲覧。
^ ISO (2004年). “Parametric coding for high-quality audio, ISO/IEC 14496-3:2001/Amd 2:2004 ”. ISO. 2010年9月4日 閲覧。
^ ISO/IEC JTC1/SC29/WG11 (2003年7月25日). “Text of ISO/IEC 14496-3:2001/FPDAM2(Parametric Audio) - N5713 ” (DOC). 2010年9月4日 閲覧。
^ 3GPP (2004年9月30日). “3GPP TS 26.401 V6.0.0 (2004-09), General Audio Codec audio processing functions; Enhanced aacPlus General Audio Codec; General Description(Release 6) ” (DOC). 3GPP. 2010年9月4日 閲覧。
^ 3GPP (2005年1月4日). “ETSI TS 126 401 V6.1.0(2004-12) - Universal Mobile Telecommunications System (UMTS); General audio codec audio processing functions; Enhanced aacPlus general audio codec; General description (3GPP TS 26.401 version 6.1.0 Release 6) ”. 3GPP. 2010年9月4日 閲覧。
^ a b ISO (2006年). “Audio Lossless Coding (ALS), new audio profiles and BSAC extensions, ISO/IEC 14496-3:2005/Amd 2:2006 ”. ISO. 2010年9月4日 閲覧。
^ ISO (2007年). “BSAC extensions and transport of MPEG Surround, ISO/IEC 14496-3:2005/Amd 5:2007 ”. ISO. 2010年9月4日 閲覧。
^ ISO/IEC JTC1/SC29/WG11 (2005年7月). “Tutorial on MPEG Surround Audio Coding ”. 2010年9月4日 閲覧。
^ ISO/IEC JTC1/SC29/WG11 (2005年7月). “Tutorial on MPEG Surround Audio Coding ”. archive.org. 2010年2月9日 閲覧。
^ ISO (2007年1月29日). “ISO/IEC 23003-1:2007 - Information technology -- MPEG audio technologies -- Part 1: MPEG Surround ”. ISO. 2010年9月4日 閲覧。
^ a b c ISO (2005年). “MPEG-1/2 audio in MPEG-4, ISO/IEC 14496-3:2001/Amd 3:2005 ”. ISO. 2010年9月4日 閲覧。
^ ISO (2005年). “Lossless coding of oversampled audio, ISO/IEC 14496-3:2001/Amd 6:2005 ”. ISO. 2010年9月4日 閲覧。
^ ISO (2006年). “Scalable Lossless Coding (SLS), ISO/IEC 14496-3:2005/Amd 3:2006 ”. ISO. 2010年9月4日 閲覧。
^ ISO (2008年). “Enhanced low delay AAC, ISO/IEC 14496-3:2005/Amd 9:2008 ”. ISO. 2010年9月4日 閲覧。
^ a b ISO (2008年). “ISO/IEC 14496-23:2008, Information technology -- Coding of audio-visual objects -- Part 23: Symbolic Music Representation ”. ISO. 2010年9月4日 閲覧。
^ a b ISO (2008年). “Symbolic Music Representation conformance, ISO/IEC 14496-4:2004/Amd 29:2008 ”. ISO. 2010年9月4日 閲覧。
^ ISO/IEC JTC 1/SC 29/WG 11 (2009年4月). “89th WG11 meeting notice - Work plan and time line ”. 2010年9月4日 閲覧。
^ a b ISO/IEC JTC1/SC29/WG11 (2009-07-03) (DOC), ISO/IEC 14496-3:200X/PDAM 2 – ALS Simple Profile and Transport of SAOC , N10826 , http://www.itscj.ipsj.or.jp/sc29/open/29view/29n10483t.doc 2010年9月4日 閲覧。
^ a b ISO (2009年). “ISO/IEC 14496-3:2009/FDAM 2, ALS simple profile and transport of SAOC ”. ISO. 2010年9月4日 閲覧。
^ a b ISO/IEC JTC1/SC29/WG11 (2009-10) (DOC), ISO/IEC 14496-3:2009/FPDAM 2 – ALS simple profile and transport of SAOC , N11032 , http://www.itscj.ipsj.or.jp/sc29/open/29view/29n10730t.doc 2010年9月4日 閲覧。
^ ISO/IEC JTC1/SC29/WG11 (2008-10-17) (DOC), ISO/IEC 14496-3:2005/PDAM 10:200X HD-AAC profile, MPEG2008/N10188 , http://www.itscj.ipsj.or.jp/sc29/open/29view/29n9813t.doc 2010年9月4日 閲覧。
^ ISO (2009年9月11日). “ISO/IEC 14496-3:2009/Amd 1:2009 - HD-AAC profile and MPEG Surround signaling ”. ISO. 2010年9月4日 閲覧。
^ ISO (2009年10月8日). “ISO/IEC 14496-3:2009/FDAM 2 - ALS simple profile and transport of SAOC ”. ISO. 2010年9月4日 閲覧。
参考文献
Andreas Spanias, Ted Painter, Venkatraman Atti (ed). Audio signal processing and coding . Wiley-Interscience, John Wiley & Sons, Inc., 2006. ISBN 978-0471791478 .
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio . ISO/IEC 14496-3:2005, Third edition, 2005.
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio . ISO/IEC 14496-3:2009, Fourth edition, 2009.
関連項目
外部リンク