H.264

Last-modified: 2018-04-02 (月) 20:39:38

※この文書は間違った内容を記載している可能性があります。信じすぎないようにしてください。

このページでは「H.264 データを解析する」ということを手段にして、その構造や考え方を解説します。データの解析をすることが、デコーダー、エンコーダーを使用するのにも、作成するのにも一番の近道です。

0. 基礎知識

0.1. 規格書

通称「H.264」は、別名「MPEG-4 AVC」、あるいは「ISO/IEC 14496-10」と言い、世界標準規格のビデオ圧縮コーデックです。
2003年に最初の仕様が規格化され、何度か互換性を保ちつつ拡張されています。
最新の規格書を下記サイトから入手できます。

規格名URLメモ
ITU-T Rec. H.264
ISO/IEC 14496-10 Advanced Video Coding
http://www.itu.int/rec/T-REC-H.264/en無料
JT-H264 オーディオビジュアルサービス全般のための高度ビデオ符号化方式http://www.ttc.or.jp社団法人情報通信技術委員会の会員になる必要あり。

また、H.264 参照ソフトウェア を使用すれば、より詳しく内容を知ることができます。

0.2. ビデオ圧縮の基礎知識

H.264 ビデオを含め、ほとんどのビデオデータは、何枚もの静止画をパラパラと切り替えて表示していくことで、動画(Moving Picture)として振舞います。H.264 ビデオには音声データは含まれていないので、別途、符号化した音声データと多重化して MPEG-2 TS のようなコンテナデータに格納し、再生時に音声とビデオを同期しながら再生することで、映画のような、まさにムービーとなります。
※ちなみに「ムービー」といえば、たいていビデオと音声を含んだデータで、「ビデオ」といえば、映像のみのデータになります。

 

基本的には、動画を先頭から再生し続けるためのデータですから、ビデオデータには先頭の静止画から順に静止画が格納されています。ただ、単純に静止画を並べただけだと、データ量が多すぎるので圧縮し、データ量を削減します。その際、静止画1枚1枚を圧縮するのはもちろん、静止画同士の似た部分を1つにまとめ、小さくすることもします。また、より圧縮効率を高めるため、静止画の順序を入れ替えることもあります。
なお、H.264 というのは非常に広い規格であることから、そのままではアプリケーションを開発する人の負担になってしまいます。そのため「プロファイル」や「レベル」、「運用規定」といったもので制約を設けて、より小さな規格を作って、テレビ放送、Blu-rayディスク、インターネット放送、ビデオオンデマンドサービスなどに使われています。

1. H.264データ構造の概要

本章でH.264のデータ構造を説明します。

1.1. 基本構造 - NAL ユニット

H.264 データは、階層構造になっています。解析を始めて、最初に現れる、最上位の階層が「NAL」です。NALは、Network Abstraction Layer(ネットワーク抽象レイヤー)の略称で、動画データを効率良く伝送するための機能を担うレイヤー(階層)です。

 

NAL は、 n 個の NAL ユニットが連なっており、その1つ1つを順に解析することで、デコード(復号)できるようになっています。

NALの構成
NAL unit(1)NAL unit(2)NAL unit(3)NAL unit(4)NAL unit(n-1)NAL unit(n)
 

各 NAL ユニットは、よくあるファイルフォーマットと同じく、ヘッダー部とボディ部から構成されています。それぞれ「NAL ユニットヘッダー」と「RBSP」という名前がついています。

NALユニットの構成
NALユニットヘッダーRBSP
 

NAL ユニットヘッダーの内容に応じて、RBSPに格納されるデータの内容は全く異なり、ビデオデータそのものが入ることもあれば、圧縮ビデオデータをデコード(復号)するのに必要な補助情報を表すデータだけが入ることもあります。ビデオデータを含むNALユニットのことを特に「VCL NALユニット」と呼び、ビデオデータ以外の情報を含んだNALユニットを「非VCL NALユニット」と呼びます。

 

「VCL NALユニット」のRBSPには、VCLのデータを含みます。VCLは、Video Coding Layer(映像符号化レイヤー)の略称で、前述の通り、ビデオデータの圧縮そのものの機能を担うレイヤーです。

 

「非VCL NALユニット」には、VCLデータは含みませんが、VCLデータを解釈するのに重要な情報を含んでいます。たとえば、解像度の情報や、フレームレート、デコード(復号)するのに必要なメモリ量などの情報が書かれており、ビデオデータそのものではないものの、デコードするためには絶対必要な情報が含まれています。

 

このようにNALには大きく2種類のNALユニットが存在していますが、それらを区別する情報は、NALユニットヘッダーの5ビットの情報「nal_unit_type」を読み取って、確認します。5ビットなので、0~31の値を表現できますが、2015年6月現在、18種のNALユニットしか規定されていません(1~15と19~21)。

1.2. 基本構造 - バイトストリームフォーマット

H.264 の NAL 構造は、2つの異なるフォーマットが使われます。
1つが「Packet Transport Protocol」で、元々、ネットワーク配信する場合などに多く用いられる方法で、一切、余計なものをつけない方法です。たとえばビデオ配信で有名なプロトコル「RTP」(Real-time Transport Protocol」で、H.264ビデオを配信する場合はNALユニットごとにパッケット化して配信しており、パケットの終わりがNALユニットの終わり(つまり、RBSPのデータサイズと言える)となっていて、簡単に解析できるようになっています。(RTPでの、H.264のパケット化の方法については「RFC6184」)
もう1つが「Byte Stream Format」で、規格書「ITU-T Rec. H.264 | ISO/IEC 14496-10 Advanced Video Coding」の付属資料B(通称「Annex.B」)に、そのフォーマットが規定されています。
以降では、「Byte Stream Format」について解析します。

1.2.1. バイトストリームフォーマットの解析 - 基本

バイトストリームフォーマットでは、 NAL ユニットの区切りを明確にするため、下記のような構造をとっています。

 

例:(cf. ITU-T H.264 (02/2014) - B.1.1 Byte stream NAL unit syntax)

バイトストリームフォーマット(Annex.B)
1つ目のバイトストリームNALユニット2つ目の…
leading_zero_8bitszero_bytestart_code_prefix_one_3bytesnal_unittrailing_zero_8bits
 

基本的に「start_code_prefix_one_3bytes」(以降「スタートコード」)を探していけば、NALユニットの始まりを探すことができます。スタートコードは、その値が「0x000001」の3バイトのことで、バイトストリームNALユニットの区切りを示します。
他の要素で重要なのは、nal_unit で、この構文要素に NAL ユニットが格納されています。
他の要素は無視して構いませんが、一応、解説します。
まず、leading_zero_8bitstrailing_zero_8bits は、必ず 0 となるビット(バイト)です。leading_zero_8bits と trailing_zero_8bits に分かれてはいますが、1つ目のバイトストリームNALユニットの trailing_zero_8bits と2つ目のバイトストリーム NAL ユニットの leading_zero_8bits が同じバイトを指します。
次に、zero_byte は名前の通り、0を表すバイトで、NALユニットの内容によって入ったり入らなかったりします。しかし、結局は0なので解析処理にはほとんど影響を与えません。

 

バイトストリームNALユニットの具体的な解析処理は、たとえば、オープンソースソフトウェアの OpenH264 では下記のファイルで行っています。
https://github.com/cisco/openh264/blob/master/codec/decoder/core/src/au_parser.cpp

 

この中でDetectStartCodePrefix() 関数でスタートコードを探しています。処理内容は、0を示すバイトの個数を変数iIdxで数え、1を示すバイトが現れた際に 3個以上の 0 が連なっていたらスタートコードだったという判断をして、スタートコードの次の nal_unit を指すポインタを返しています。
次にParseNalHeader()関数で NALユニットヘッダーを解析しています。
これらの関数の呼び出しは、次のファイルのWelsDecodeBs()関数で行っています。
https://github.com/cisco/openh264/blob/master/codec/decoder/core/src/decoder.cpp

 

あと、もうちょっと馬鹿正直にやるなら、リファレンスソフトの次のソースで、FindStartCode() 関数。
http://iphome.hhi.de/suehring/tml/doc/ldec/html/annexb_8c_source.html

 

アプリケーションによっては、スタートコード位置がわからない状態だっていう場合、もうちょっと探索スピードを上げたいなら、Boyer-Moore法を使用すると素早く探索できます。
次のソースの gst_h264_find_next_nal_code() 関数が参考になります。
http://downloads.isee.biz/pub/files/igep-dsp-gst-framework-3_40_00/gstreamer-ti_svnr962/src/gsttiquicktime_h264.c

1.2.2. バイトストリームフォーマットの解析 - エスケープ文字的なもの

ところで、nal_unit中にスタートコードと同じ「0x000001」が現れた場合、どう解析すれば良いのでしょうか?
安心してください。
nal_unit中には「0x000001」は現れません。これは、規格書上では「emulation_prevention_three_byte」という構文要素の説明に現れますが、簡単に言えば、C言語でいうところの「エスケープ文字」です。
つまり、 nal_unit中に「0x000001」と同じ値が現れた場合、エンコーダー(符号器)は「0x00000301」と値をエスケープすることが規定されていて、H.264 解析時には、これを考慮して解析する必要があります。
また、「0x000001」という16進数表記ではわかりにくいですが、2進数表記にすると
「0x000001」は「0000 0000 0000 0000 0000 0001」であり、
「0x000002」は「0000 0000 0000 0000 0000 0010」であり、
「0x000003」は「0000 0000 0000 0000 0000 0011」ですので、
「0x000002」と「0x000003」も、「emulation_prevention_three_byte」でエスケープして
「0x00000302」と「0x00000303」とします。

1.3. 基本構造 - NALユニットヘッダーの解析

NALユニットは、前述の通り、NALユニットヘッダーとRBSPから成ります。
NALユニットヘッダーは、1バイト(=8ビット)で下記の構造を持ちます。

名称ビット数概要
forbidden_zero_bit1必ず0となる。0でない場合、伝送エラー等が発生している。
nal_ref_idc2参照ピクチャまたは参照フレームまたは参照フィールドを含むNALユニットかどうかを示す。
「idc」は「indicator」で「標識」の意味。
nal_unit_type5NALユニットの種別を表す。値がどの種別を示すかは別表で説明する。
 

ここで、nal_unit_type は次表のような値を取ります。

nal_unit_type値NAL ユニット名概要
0Unspecified無指定
1Coded slice of a non-IDR picture
2Coded slice data partition A
3Coded slice data partition B
4Coded slice data partition C
5Coded slice of an IDR picture
6Supplemental enhancement information通称「SEI」。
7Sequence parameter set通称「SPS」。
8Picture parameter set通称「PPS」。
9Access unit delimiter通称「AUD」。
10End of sequence
11End of stream
12Fillter data
13Sequence parameter set extension
14Prefix NAL unit
15Subset sequence parameter set
16-18Reserved予約
19Coded slice of an auxiliaryy coded picture without partitioning
20Coded slice extension
21Coded slice extension for depth view components
22-23Reserved予約
24-31Unspecified無指定

個々の意味は、後ほど。

1.4. 基本構造 - RBSPの解析

1.4.1. EBSPとRBSP

さて、今まで規格書にならって「RBSP」と書いてきましたが、実は正確ではありません。
Byte Stream Format (Annex.B) は、次の構造でした。

【Byte Stream】【Start Code】【NALU】+ …+【Start Code】【NALU】

※leading_zero_8bitsやtrailing_zero_8bitsは省略してます。

次に、NALUこと、NALユニットは次の構造と説明しました。

【NALU】【NALU Header】【RBSP】

しかし、正確には【NALU】は【RBSP】で構成されるのではなく、【EBSP】で構成されます。

【NALU】【NALU Header】【EBSP】

これは、先の「1.2.2. バイトストリームフォーマットの解析 - エスケープ文字的」(H.264#n7ba3ff7)で説明したエスケープ文字があるからです。
【EBSP】は、次の構造をしています。

【EBSP】【RBSP part(1)】【0x03】【RBSP part(2)】【0x03】 +… +【RBSP part(n)】

そして、エスケープ文字的な「0x03」をアンエスケープ処理して、RBSP part(x) を連結することで、RBSPとなります。

【RBSP】【RBSP part(1)】【RBSP part(2)】+… +【RBSP part(n)】

なお、【EBSP】という略語は規格書には登場しませんが、一般的に通用する名称になっています。
英語の意味としては
【RBSP】は、「Raw Byte Sequence Payload」の略語で、「生のバイト列データ」といった意味で、
【EBSP】は、「Encapsulate Byte Sequence Payload」の略語で、「カプセルに入れたバイト列データ」といった意味です。
小さなカプセルにバイト列データを刻んで入れた…というイメージすると良いかと思います。
(実際には、「小さなカプセル」っていうほど、粒ぞろいな感じではなく、都合に合わせて切ってるだけですが。)

1.4.2. RBSPとSODB

さて、本来、少しでもビットを削ろうとしている H.264 において、そんなに都合よくペイロードデータがバイト単位の区切りに揃うわけがありません。
そのもっとも生なデータを「SODB」(String of Data Bits、データビット記号列)で、バイト単位に切り上げるためのビットを「RBSP stop bit」と呼びます。
RBSPとの関係は、下記の構造が示す通りです。

【RBSP】【SODB】【RBSP stop bit】

この関係性が図で示されていることは少ないですが、規格書 ITU-T H.264 (02/2014) の "3.149 string of data bits (SODB" や "7.4.1 NAL unit semantics" の「rbsp_byte」の説明を読むとわかります。

2. HRDの概要

2.1. HRDの仮定

A. 付録

A.1. 機能一覧

カテゴリ機能名BaselineExtendedMainHighHigh10High4:2:2Hight4:4:4
エントロピー符号化CABAC--OKOKOKOKOK
エントロピー符号化CAVLCOKOKOKOKOKOKOK
デブロッキングフィルタOKOKOKOKOKOKOK
変換4×4整数変換OKOKOKOKOKOKOK
変換8×8整数変換---OKOKOKOK
予測インター予測-OKOKOKOKOKOK
予測イントラ予測OKOKOKOKOKOKOK
予測重み付き予測-OKOKOKOKOKOK
ロスレス符号化------OK
カラーフォーマットαプレーン
カラーフォーマットYCgCo-----OKOK
カラーフォーマットITU-R Recommendation BT.2020
スライスI スライスOKOKOKOKOKOKOK
スライスP スライスOKOKOKOKOKOKOK
スライスB スライス-OKOKOKOKOKOK
スライスSP,SI スライス-OK-----
スライス任意スライス順序OK------
スライススライスグループOK------
スライス冗長スライスOK------

A.2. レベル一覧

レベル名level_idcMaxMBPSMaxFSMaxDpbMbsMaxBRMaxCPB追加時期
1101,4859939664175Version 1: (2003-05-30)
1b91,48599396128350Version 2: (2005-03-01)
1.1113,000396900192500Version 1: (2003-05-30)
1.2126,0003962,3763841,000Version 1: (2003-05-30)
1.31311,8803962,3767682,000Version 1: (2003-05-30)
22011,8803962,3762,0002,000Version 1: (2003-05-30)
2.12119,8007924,7524,0004,000Version 1: (2003-05-30)
2.22220,2501,6208,1004,0004,000Version 1: (2003-05-30)
33040,5001,6208,10010,00010,000Version 1: (2003-05-30)
3.131108,0003,60018,00014,00014,000Version 1: (2003-05-30)
3.232216,0005,12020,48020,00020,000Version 1: (2003-05-30)
440245,7608,19232,76820,00025,000Version 1: (2003-05-30)
4.141245,7608,19232,76850,00062,500Version 1: (2003-05-30)
4.242522,2408,70434,81650,00062,500Version 1: (2003-05-30)
550589,82422,080110,400135,000135,000Version 1: (2003-05-30)
5.151983,04036,864184,320240,000240,000Version 1: (2003-05-30)
5.2522,073,60036,864184,320240,000240,000Version 6: (2011-06-29)
6604,177,920139,264696,320240,000240,000Version 11: (2016-10-14)
6.1618,355,840139,264696,320480,000480,000Version 11: (2016-10-14)
6.26216,711,680139,264696,320800,000800,000Version 11: (2016-10-14)
Unconstrained0-----Version 1: (2003-05-30)

MaxMBPSはマクロブロック速度で、単位はマクロブロック数毎秒。
MaxFS, MaxDpbMbsはマクロブロック数。
MaxBRとMacCPBの単位は、cpbBrVclFactor bitsもしくはcpbBrNalFactor bitsで、下記のテーブルで与えられる。

プロファイルcpbBrVclFactorcpbBrNalFactor
Baseline10001200
Main10001200
Extended10001200
High12501500
Progressive High12501500
Constrained High12501500
High 1030003600
High 10 Intra30003600
High 4:2:240004800
High 4:2:2 Intra40004800
High 4:4:4 Predictive40004800
High 4:4:4 Intra40004800
CAVLC 4:4:4 Intra40004800

A.3. プロファイル一覧

プロファイル名profile_idc追加時期
Baseline66Version 1: (May 30, 2003)
Main77Version 1: (May 30, 2003)
Extended88Version 1: (May 30, 2003)
High100Version 3: (March 1, 2005)
High 10110Version 3: (March 1, 2005)
High 4:2:2122Version 3: (March 1, 2005)
High 4:4:4244Version 3: (March 1, 2005)
CAVLC 4:4:444Version 7: (April 6, 2007)

A.4. 関連リンク

H.264
ITU が公開している規格書。
H.264用語集
この Wikipedia 内で、H.264 に関する用語をまとめたページです。
OpenH264
Cisco 社が開発しているオープンソースの H.264 デコーダーです。
H.264/AVC JM Reference Software
オープンソースの H.264 デコーダー&エンコーダーです。規格書の通りに実装することを目指していて、規格の策定する際にも使用しています。
情報源符号化部 H.264 MPEG-4 AVC 規格の概要
総務省のホームページで公開されているPDF。結構わかりやすいと思う。
ARIB 標準規格(放送分野)一覧表
地上デジタル放送などの規定。H.264 はワンセグ放送で使われている。
デジタルテレビ情報化研究会
こちらも放送系。IPTV/VODサービスの多くがこの規定をもとにしている。2011年11月30日に活動を停止。2015年度で情報公開終了。
POSTD H.264の秘密
H.264の技術をわかりやすく解説している。

A.4. ピクチャとフレームとフィールド

「ピクチャ」は「フレーム」または「フィールド」で構成され、1枚の画像を示します。
「フレーム」はピクチャの構造の1つで、プログレッシブ映像での1枚の画像を示します。
「フィールド」はピクチャの構造の1つで、インタレース映像での1枚の画像を示します。
ただし、インタレースにおいて、1ピクチャごとにフィールドにするかフレームにするかを決めることができる機能(PAFF)があるため、インタレース映像でもフレームになることはあります。
プログレッシブであることは「frame_mbs_only_flag」(Sequence parameter setに存在するフラグ)が非0にすることで明示できます。

A.5. SDK

Memo

フレームレート

  • SPS (Sequence Parameter Set) の timing_info_present_flag が 1 になっていて、sps.time_scale / sps.num_units_in_tick で求められる。
  • もしtiming_info_present_flag が 0 と見なされる場合には、ピクチャに附随する PPS (Picture Timing SEI) の PTS/DTS によって時刻がわかるので、ここから推定する。
  • 可変フレームレートの場合は、むしろこの方法以外でピクチャの表示開始時刻をしることはできない。
  • ただし、これさえも存在しないこともあり得るため、最終的にはシステム全体としてデフォルト値は必要。