[HDMIの音質] HDMI出力がなぜ同軸/SPDIFデジタル出力やアナログ出力よりも劣るのか

HDMIは映像や音声をデジタル伝送できる規格として幅広く利用されています。


しかし、オーディオマニアで音質に強いこだわりを持つユーザー(私もその一人)は、CDプレーヤーやBDプレーヤーのオーディオ出力としてHDMIを利用している人はほとんどいません。


それは、HDMI出力が、同軸/SPDIFデジタル出力や、アナログ出力と比較して、明らかに音質的に劣るからです。オーディオマニアでなくとも、一般の人が比較試聴すればその音質の違いがわかるほどです。



ではHDMI出力はなぜ音が悪いのでしょうか?


HDMIの音質が悪い理由について、かつて私自身が記した記事がありました。


以下の「HDMIの音質について」は、私が7年前にファイルウェブのコミュニティに投稿した記事をそのままコピペしたものです。

1. HDMIの音質について

これまでプレーヤーのHDMI出力の音質についてはあまり良い評価を聞いたことがなく、実際ほとんどの場合はSPDIFデジタル出力かアナログ出力だと思います。


ところが、最近入手したOPPOのプレーヤーは、HDMI伝送でAVアンプと繋いでみると、これが驚くほど音が良いのです。これはいったいどういうことか。。。


そもそもなぜHDMIのほうが音が悪い(と言われる)のでしょうか?


それは、HDMIの音が悪いというのは、初期のHDMIの規格と実装の両方が技術的に未熟で音質に配慮されていなかったためで、「HDMIは音が悪い」ということが不幸にも定着してしまったためだと思います。


具体的には、HDMI伝送のジッターの問題で、USBや1394などのデジタルインタフェースのなかで、HDMIのジッターが最悪な理由(通説では40倍も悪い)は、あろうことか、初期のHDMIの規格上映像信号用のクロック(74.25 MHz )しか伝送できないためです。

音声信号は、この中途半端はクロックを参照して受信側でPLLで生成するしかなかったのです。


ところが、HDMIのVer1.4の規格(2009年ごろ)で導入されたARC(Audio Rate Control)はこれを解決しています。具体的には双方向通信を利用して、受信側で生成されたクロックに同期するように送信側のスピードを制御できるようになったのです(SonyのAAVアンプで搭載されているH.A.T.S.機能はまさにこれを利用したものでした)。


したがって、現在のARC対応のHDMI規格では、ジッターの性能は大幅に改善されているのです。


OPPOのプレーヤーはARC対応で、しかもHDMI出力が2系統あり、片方を映像のみ、もう片方を音声のみに設定することができます。この設定で音声のみの出力をAVアンプにつないで聴いてみると、確かに驚くほど音質が改善しているのがわかりました。


話は少し変わりますが、最近話題のDSD再生ですが、ほとんどのDACはHDMIではなくUSBをインタフェースとしています。USBにはアシンクロナス伝送モードというものがあり、これを利用することによってジッターを大幅に低減できます。


しかし、DSDのマルチチャンネル再生となると、6チャンネルなのでステレオの3倍の情報量となり、USBの伝送容量を超えてしまうため、USBでは伝送することができません。

マルチチャンネルがあまり普及していないという背景もありますが、これがDSDのマルチチャンネル可能なDACが現在存在しない理由だと思います。


実はOPPOの新しいプレーヤーは、DSDマルチチャンネルのビットストリーム信号をHDMI出力できる世界初のプレーヤーです(DSDファイル再生という意味で)。

さきほどの映像と音声を分離してHDMI出力2から音声のみをAVアンプに送ることにより、AVアンプ側のマスタークロックで音声を処理することができるのです。


これが、OPPOのHDMI出力の音声が素晴らしい具体的な理由だと思います。


もしこれが本当であれば、なぜメーカーはHDMI出力のDACを作らないのでしょうか?


おそらくそれは、HDMIの音声品質に関する評判が(上記の理由で)低いからではと思います。もしそうであればそれは大変残念なことです。


個人的には、(SACDではなく音源配信でNASやHDDからの)マルチチャンネルDSD再生こそ将来のデジタルオーディオだと信じていますので、ぜひともHDMIが高い評価を得て、たくさんの製品が市場に出るようになればと願っています。


(おわり)

2. 補足

HDMIのオーディオ信号のジッター低減に効果的な規格として、ソニーのH.A.T.S.とパイオニアのPQLSがあります。


各社ともこのAudio Rate Controlを共通規格として同じ実装をしているなら良いのですが、ソニーのH.A.T.S.とパイオニアのPQLSは機能としては同じなのに実装方法が異なるため互換性が無く、ソニー同士、パイオニア同士でないと機能しません。


これは、ソニーは1.3aでAudio Rate Controlが入ることを事前に知っており、それを使って実装しましたが、HDMI規格化団体に入っていなかったパイオニアはそれを知らず、CECコマンドを使って実装してしまったからです。


非常に残念な話ではありますが、HDMI規格がそもそも当初には映像伝送用の規格として制定され、オーディオ品質まで配慮が行き届かなかったのが、すべての元凶のようです。

3. SPDIFデジタル出力とのバイナリデータ比較

では実際に、HDMIの出力と、SPDIFの出力は、バイナリデータがどの程度異なるのでしょうか?


SPDIFとHDMIデジタル出力について、こちらについても、かつて私自身が記した記事がありました。


以下は、私が同じく7年前にファイルウェブのコミュニティに投稿した記事をそのままコピペしたものです。


CDプレーヤーのデジタル出力はSPDIFとHDMIでバイナリデータに違いがあるのか?PCでリッピングしたWAVデータの再生とこれらデジタル出力は違いがあるのか?日頃から疑問に思っていたことを実験して確かめることにした。


使ったプレーヤーは、SonyのSCD-XA5400ES(ミドルクラス)とPioneerのDV-800AV(エントリークラス)の2台である。



写真のように、プレーヤーのデジタル出力をFF400入力に繋いで、PCにはDAWソフトとしてCubase4を立ち上げ、リアルタイムでFF400の出力(44.1kHz, 16bit)をFireWire経由でHDDにWAV保存する。HDMI出力の場合は、前の日記で紹介したSPDIF端子付きHDMIスイッチャーを利用した。再生ディスクはトレヴァーピノックのチェンバロ名曲集という一般的なCDだ。またWAVのバイナリ比較にはフリーソフトのWaveCompareを使った。


まずSonyのプレーヤで再生。SPDIF出力とHDMI出力をそれぞれデジタル録音して比較してみる。


驚いたことにバイナリ完全一致だ。




ケーブルを変えたり設置条件を変えたりいろいろ試してみたが、何度やってもバイナリ一致する。


次にPioneerのプレーヤで再生。こちらもSonyと同様バイナリ完全一致だ。



この結果から(少なくとも今回の実験環境の範囲では)、SPDIFとHDMIのデジタル出力のバイナリデータには全く差異がないということがわかった。また何度やっても同じバイナリとなる実験の結果からすると、CDプレーヤーの読み取り精度やケーブルの伝送精度は機種のグレードに関わらずビット単位で完璧な出力ということもわかる。


(おわり)


当時の実験結果から、SPDIFとHDMIデジタル出力のバイナリデータは完全一致することがわかりました。


自画自賛で恐縮ですが、このように私のような一般のユーザーが、実際にデジタル出力の比較実験をした実証例というのは、初めてではないでしょうか?


HDMI出力がSPDIFデジタル出力よりも音質が劣るのは、バイナリデータの差異ではなく、伝送されたデジタルデータを再生するときのジッターなのです。


ジッターについては、以下の英文記事に詳しく説明されていますが、デジタルデータを整列させて再生するときの、時間軸方向での信号波形の揺らぎのことです。

4. Digital Audio: The Possible and Impossible

以下は、米国のmadrona digitalという企業のサイトに投稿されているHDMIの音質に関する記事のGoogle翻訳です。


やや長い記事ですが、HDMI出力の音質についての技術的な背景をきっちりと説明しています。


尚、著者のAmir Majidimehr氏は、元マイクロソフトコーポレーションでウィンドウズメディア部門の上級副社長だった人物です。


Digital Audio: The Possible and Impossible

By, Amir Majidimehr


[この記事はもともとWidescreenReviewMagazineに掲載されました]


ポップクイズ:これらの説明のうち、正しいものはどれですか。

1.ブルーレイプレーヤーとAVR /プロセッサー間のHDMIケーブルを変更すると、アナログオーディオ出力が変更される可能性があります。

2.Blu-rayプレーヤーまたはAVR /プロセッサーのディスプレイとビデオ回路をオフにすると、アナログオーディオ出力が変化する可能性があります。

3.USBおよびS / PDIF入力を備えたDACを使用している場合、一方から他方に変更すると、アナログ出力が変更される可能性があります。

4.AVRまたはプロセッサでHDMI入力からS / PDIFに変更すると、アナログ出力が変更される可能性があります。


この記事を読んでいるほとんどの人は、上記の不可能性のすべてを考慮し、それ以外の話は、あなたに「スネークオイル」を売っている山師の話だと思います。さて、私は答えが反対であることをあなたに言うためにここにいます!そして、それは科学と工学の問題であり、信念ではありません。興味深いことに、技術的であればあるほど、私が言っていることが間違っていると思う傾向があります。この理由は後で明らかになります。


デジタルオーディオはすべてデジタルではありません!

最初に理解することは、デジタルオーディオは完全に「デジタル」ではないということです。はい、あなたはその権利を読んでいます。あなたが精通しているビットは確かにデジタルです。つまり、オーディオサンプルの振幅を表す数値です。たとえば、CDオーディオには、サンプルごとに16ビットまたは2バイトがあります。ブルーレイのオーディオは、最大24ビットまたは3バイトになります。オーディオサンプルがデジタルデバイス内にある限り、それらは後で再生されるサンプルのセットとして純粋にデジタルのままです。それらを何度でもコピーして、コンピュータファイルと同じように無垢でロスレスに保つことができます。これまでのところ、それらは私たちが信じているデジタルデータです。


明らかなことを述べるリスクを冒して、私たちはデジタルサンプルではなくアナログ波形を聞きます。そのアナログ波形を作成するために、デジタルオーディオサンプルをDigital to AnalogConverterまたは略してDACと呼ばれるデバイスに供給します。その変換には、今説明したオーディオサンプルとそのタイミングの2つの情報が必要です。タイミングは、そのオーディオサンプルをいつ出力する必要があるかをDACに通知します。


タイミングが重要である理由は、サンプリング理論では、出力サンプルが最初にアナログからデジタルに変換した正確な時間と一致することが義務付けられているためです。同じタイミングを維持すれば、デジタルシステムの忠実度が非常に高いことを示すことができます。ただし、この原則に違反すると、歪みが発生します。


出力波形は、デジタルオーディオサンプルを表すドットで相互に接続されたドットのセットと考えてください。それらのオーディオサンプルを取得して左右に動かすと、波形が変化します。それがジッターの役割です。時間はそれらのドットの水平位置を定義し、それらを変更することはまったく同じ歪みを意味します。


実生活ではよくあることですが、DACを駆動するタイミングを完全に正確にすることはできません。ある程度の変動は常に存在します。これを「ジッター」と呼びます。これは、DACへのタイミングソースが理想値からどれだけ変化するかの測定値です。ジッタの影響は、その振幅(振幅)、周波数(ジッタとソースオーディオの)、およびスペクトル/波形(変動の仕方)によって決まります。


ジッタは、「1.5ナノ秒」などの時間単位を持つ単一の性能指数として十分に特徴付けられていないことがよくあります。他の要因、特にスペクトルははるかに重要であり、そのように表されるジッタの振幅を超えることが多いため、特性が不十分であると言います。そうは言っても、私はこの記事の残りの部分で同じ罪を犯し、本全体を書かずにこのジッターの紹介を通過するためにその1つの数字に焦点を当てます。


典型的な数値がナノ秒単位で測定された場合、なぜ誰もがジッタを心配するのかについて戸惑うかもしれません。結局のところ、15億分の1秒に相当する1.5 nsは、出力波形にどのように違いをもたらすのでしょうか。確かに、毎秒44,100のサンプルが比較的少ないCDオーディオは、このような小さな変動に敏感ではありません。ジッタの影響は周波数とサンプルの深さに依存するため、考えるのは間違いです。オーディオサンプルの解像度は比較的高いため、後者は私たちにとって大きな問題です。 65,535のサンプル値に変換されるCDオーディオの16ビットの例を見てみましょう。これらは、出力オーディオ波形の非常に小さな増分であり、その大きさは、単3電池1本の電圧で大まかに表されます。 24ビットは16,777,215レベルでさらにクレイジーになります。その単一の単三電池の電圧が現在1600万の小さな分割に分割されていると想像してみてください!私たちのデジタルオーディオの送信/再生を「完璧」にするには、これらすべての増分を保持する必要があります。


ジッタはどれくらいですか?

ジッタの影響を測定する1つの方法は、それが正弦波であるという単純化した仮定を立てることです(それは何度もありませんが、それを使ってみましょう)。次に、前述のように、オーディオサンプルの1ビットで表される電圧に等しい歪みを生成するために必要な量を計算できます。 CDオーディオの場合、16ビットオーディオサンプルを15ビットに相当させるのはジッターの量です。ここでの考え方は、16ビットオーディオサンプルを再生しようとしている場合、理想的には、再生システムに少なくともそのレベルの透明度まで上昇するのに十分な透明度を持たせたいということです。


ジッターの音楽への影響は、音楽のすべてのトーンを変調することです。退屈させないために私が入らない数学を使用して、正弦波ジッターを2つの歪み積を生成する信号としてモデル化できます。1つはジッターとソース周波数の合計で、もう1つは差です。ふたつの間に。このモデルと、CD音楽の応答が約20 KHzであるという事実を使用して、16ビットオーディオサンプルの1ビットを圧倒するのに必要なジッターの量を計算できます。計算を実行すると、ジッタの振幅が0.5ナノ秒を超えることはできないという信じられないほどの事実に到達します。あなたはその権利を読んだ。 DACのタイミング変動が5億分の1秒を超える場合、オーディオサンプルの1ビットを圧倒するのに十分な歪みが発生します。それを言うのは意見ではありません。純粋数学です。そして、これは最も単純なジッターの場合であり、より複雑ではありませんが、音楽に作用する多くのジッター周波数とスペクトルがある典型的なシナリオです。


このあいまいな説明を実際に視覚化するために、Audio Precision AudioAnalyzerのデジタルオーディオ測定ハンドブックに掲載された故JulianDunnによって作成された単一トーンに作用するジッターの測定値を次に示します。


デジタルオーディオジッター


10KHzトーンがソース周波数です。歪み側波帯(両側の小さなピーク)は、純粋に、DACのタイミングクロックを周波数3 KHz、振幅5ナノ秒の正弦波で変更した結果です。これは、20ビットの分解能を持つシステム用であるため、ノイズフロアは-120dBです。 -80dbのジッター歪みはそれをはるかに上回り、システムパフォーマンスをCDが16ビット(96 dB)で実行できるレベルよりもはるかに低くしています。したがって、76億分の1秒は非常に小さな値のように聞こえますが、オーディオ信号の歪みへの影響は非常に重要です。


ジッタ源

次の質問は、ジッターの原因になります。答えは、それはありとあらゆるものである可能性があるということです。 DACは通常、通常は非常にノイズの多い環境の内部にあります。 DACとそのクロックに給電する同じ電力線は、最終的にはマイクロプロセッサ/ DSP、ビデオ回路、電圧回路を使用することが多いフロントパネルのハイディスプレイなどの高速デジタル回路にも給電します。通常、両方の電力線にフィルタリングがあります。また、DACクロック回路では、すべての変動を排除することはできず、それらの変動はDACクロックの小さな変化に変換されます。このため、不要な回路をオフにすることでジッターレベルを下げることができます。一部の製品では、いわゆる「ステレオダイレクト」モードなどが、ビデオをオフにしたり、フロントパネルをオフにしたりするときにこの機能を実行します。これは多くの場合、DAC出力とその性能に測定可能な影響を及ぼします。


しかし、それだけではありません。デジタルサンプルが受信デバイス/ DACに到着する前でも、ある程度のジッターが発生します。 S / PDIFデジタルオーディオケーブルを取ります。オーディオビットは、一連の「1と0」としてその上を移動します。しかし、パルスがゼロからゼロ時間で最終値に達する完全な方形波を再現できるケーブルはありません。ケーブルとその駆動および受信回路は、これらの波形を歪ませ、ノイズの多いパルスにし、低い値から高い値に移行するのに時間がかかります。これらの値をキャプチャするために、そのような電気的歪みにもかかわらず、受信機は「ゼロ交差」でそれらをサンプリングします。これは、波形が「1」か「0」かを示すしきい値を超える時間です。


上記により、デジタルサンプル値をキャプチャできますが、それらのタイミングを検出することになると、困難な状況に直面します。 Julian Dunnによるこの2回目の測定では、S / PDIF用に設計されたものではなく、通常のオーディオケーブルを使用しようとするとどうなるかを視覚的に確認できます。


ケーブル誘導ジッター


左側の初心者の場合、完全な方形波または0と1のパルスに似たものは何もないことがわかります。右の画像は、ゼロ交差点の増幅バージョンです。波形がわずかに上下に移動すると(ビットが変化すると定期的に変化します)、水平基準線と交差する正確な瞬間も変化し、受信機から見たときにタイミングが変化することがわかります。これを「ケーブル誘導」ジッタと呼びます。これで、ケーブルを変更するだけでシステムのアナログ出力が変更される可能性があると最初に言った理由がわかりました。ケーブルを変更すると、上記の波形が変更され、それに伴って、外部DACに送信されるジッター(Blu-rayプレーヤーからAVRなど)が変更されます。


特に工学の学位を持っている場合は、あなたが何を考えているかを知っています。サンプルをキャプチャして、新しい高精度クロックを使用して出力してみませんか?確かに、そのようなバリエーションがまったく同じように存在するコンピューターなど、すべてのデジタルシステムで発生するのはそれです。ジッタのレベルが低い限り、サンプルをキャプチャし、寿命は良好です。


あなたのコンピュータとは異なり、デジタルオーディオでは私たちの仕事はそこで終わりません。これらのサンプルをアナログに変換する必要があります。残念ながら、その変換は新しい発振器を使用して行うことはできません。もう一度繰り返します。DACを駆動するために新しいクロックを使用することはできません。代わりに、システムへの入力に到着したタイミングを使用する必要があります。私たちのシステムは、ソースを「マスター」として配置します。つまり、オーディオサンプルの再生速度を制御します。これは、ソースが広告されたサンプリングレートと異なる可能性があるためです。例として、Blu-rayプレーヤーが映画のサウンドトラックが「48KHz」であると言ったからといって、1秒あたり48,000のサンプルがあることを意味するわけではありません。映画がディスクでマスタリングされたとき、オーディオとビデオの同期の一部として、この「公称」値よりも1秒あたり数サンプル多かれ少なかれパッケージに入れられた可能性があります。したがって、プロセッサ/ DACはオーディオストリームのサンプリングレートを知っていても、それを使用してDACクロックを導出することはできません。代わりに、着信ソースに「ロック」して、1秒あたりに到着するサンプルの数を正確に測定し、タイミングのソースに従わなければなりません。その数が47,999サンプル/秒である場合、それはまさにそれが再生しなければならないものです。もう1つではなく、1つ少なくもありません。 DACが逸脱すると、ディスクに作成されたビデオに遅れをとったり、進んだりするため、オーディオ/ビデオの同期が失われ始めます。


オーディオCDの場合でも同じプロセスが存在します。再生が速すぎると、再生するオーディオサンプルが不足したり、遅すぎると、最終的に手元にあるデータが多すぎたりする可能性があります。このシステムを機能させるために、受信デバイスのDACには、前に説明したゼロクロッシング方式を使用して着信データレートに一致するようにわずかに変化するローカルクロックがあります。残念ながら、これは、DACがその上流に存在するタイミング変動に従うことを意味します。


そのため、受信者がデータをキャプチャして「バッファ」(メモリ)に入れ、そこから再生するため、ジッターは問題ではないというよく言われる概念は間違っています。はい。オーディオサンプルは、再生されるまで便宜上キャプチャされて保存されます。ただし、DACはバッファキャプチャの前のタイミングを使用してサンプルを出力する必要があるため、この事実によってタイミング変動の影響が排除されるわけではありません。


これを読んでいるエンジニアは、受信機には、DAC用の調整可能なクロックを作成する役割を持つPLLと呼ばれる回路があることをすぐに指摘します。また、PLLは入力のタイミングジッタを除去できます。残念ながら、実際には、PLLはすべての変動を完全にフィルタリングすることはできません。ほとんどの実装は、残念ながら聞こえるタイプの低周波ジッターに敏感なままです。これは、PLLがフィルタリングする周波数が低いほど、データをキャプチャするために着信レートに「ロック」する速度が遅くなるためです。言い換えると、ジッターを除去することで、デバイスが何かを再生し始めるのに時間がかかります。これにより、PLLで発生する可能性のあるフィルタリングの量に上限が設定されます。入力を変更した一部のプロセッサ/ DACでこれが見られ、再生が開始されるまでに長い時間がかかるようです。


上記の問題には、賢いがより複雑な解決策があります。 S / PDIFインターフェースを備えたデバイスを長年構築した後、メーカーはほとんどの場合、ジッタを非常に低く許容可能なレベルに抑える方法を考え出しました。次に、HDMIと呼ばれるこのインターフェイスが登場し、この点で何年も前に戻りました。 HDMI経由のジッターはS / PDIFの10倍にもなる可能性があります。

 

さらに悪いことに、HDMIのジッタ測定は入手が困難です。オーディオ雑誌はジッター測定を行いますが、その世界ではHDMIはまれなことであり、とにかく、多くのホームシアター製品をテストしていません。ビデオ雑誌は通常、ほとんどの部分で音声測定に焦点を当てていないため、そこにもデータはありません。唯一の例外は、両方のインターフェースでジッタの測定を行う英国のHifiNewsのPaulMillerです。このようにマスマーケット製品の測定を並べて行うのは目を見張るものがあります。 Onkyo TX-NR5007AVレシーバーの測定例を次に示します。


S / PDIF:0.79 ns

HDMI:4.87 ns


ご覧のとおり、HDMIでのジッターはS / PDIFの6倍以上であるだけでなく、16ビットの忠実度の最大しきい値をはるかに上回っています。それなら、ポールがそのインターフェースで製品に不合格の評価を与えるのも不思議ではありません。これが別のAVR、Yamaha RX-V3900での測定値です。したがって、上記が例外であるとは思わないでしょう。


SPDIF:0.183 ns

HDMI:7.7 ns


ここでは、S / PDIFで優れた応答がありますが、HDMIはなんと41倍悪いです! Paul Millerのサイトには、HDMIとS / PDIFの測定値が優れている測定値は1つもありません。一般的な比率はS / PDIFを支持して10:1です。


常に、誰かとの議論のこの時点に到達するまでに、会話は「はい、しかし…それは聞こえますか?」に変わります。不公平かもしれませんが、私はその質問をパントするつもりです。これが問題です。これを正しく行うのにそれほど費用はかかりません。タイヤのバランスが少しずれている車を運転するのはなぜ悪いのかと私に尋ねるようなものです。タイヤのバランスをとる代わりに、なぜそうする必要があるのですか?


上記のOnkyoまたはYamahaAVRを見てください。 Blu-rayプレーヤーからCDを聴いている場合は、S / PDIF接続を使用して、ジッターレベルを大幅に削減してみませんか?あなたは10セント硬貨を費やすことなくより良い忠実度を得る。新製品を購入するときは、ジッターの測定値を検索して、パフォーマンスの高いものを選択してみませんか?そして、機器メーカーにHDMIを実際よりもうまく機能させることの何が問題になっていますか?ここでの設計に注意を払うことで、ジッターを減らすことができます。このような過度のジッターレベルと最適なパフォーマンスの低下につながったのは、消費者の意識の欠如です。


この記事を書いている私の願いは、とにかくジッターの可聴性をあなたに納得させることではなく、むしろ製品の性能を議論する際のコミュニケーションの正確さです。このビデオの例えを考えてみてください。 1080pディスプレイを持っていても、そこから離れすぎていると、720pよりも優れているかどうかわからない場合があります。そのため、そのディスプレイを720pと呼びますか?もちろん違います。ここでも同じことが言えます。 「デジタルはデジタルである」という理由で、ケーブル効果などに反対する議論をやめなければなりません。ケーブルは聞こえる違いをもたらさないかもしれませんが、それはそのようにシステム操作を誤って説明する言い訳にはなりません。アーキテクチャ的には、ここにはかなり複雑なシステムがあり、それがどのように機能するかを理解することは、情報に通じた消費者であるための重要な部分です。

5. 所感

紹介した英語の記事の要点は、1.5nsという極小のジッターであってオーディオに大きな影響を与えることと、HDMIのジッターはSPDIFの実に40倍以上のジッターが測定されたという事実、そして、メモリバッファーやPLLという役割があってもジッターの影響を避けることは厳しいという点でした。


ジッターを極力抑えるために、精度の極めて高いマスタークロックジェネレータが重要となります。汎用の水晶発振器(50~100ppm)とは次元の異なる数百万もするルビジウム(0.00005ppm)やセシウムのマスタークロックジェネレータがレコーディングスタジオで使われているのはまさにその理由からです。


以上のとおり、HDMIの音質が劣る理由については、技術的な根拠に基づいて説明がつきます。


しかし、HDMIの音質が悪い原因について、技術的に理路整然と説明されたオーディオ記事というものを他に見た記憶がありません。


残念ながら、国内のオーディオ業界は、従来のオーディオメーカーの製品を褒めるだけの提灯記事を書くのが本業というオーディオ評論家のマインドから脱却できずにいます。


(かつてのアナログオーディオ全盛時代から変わらないのですが)、オーディオ評論家の記事というのは、ワインのテイスティングと同じレベルで、「これはこんな音がする、あれはこんな音がする」と、文芸的な表現に終始するだけで、具体的に技術的なデータを示してオーディオ信号を分析することはありません。


今回のテーマであるHDMIの音質についても、音質劣化の具体的な要因について説明された記事は、オーディオではないITメディアであるITMediaに掲載された記事「音質の改善が著しいHDMI対応機器」(2008年6月)くらいしかネットには見当たりません。


因みに、この記事の執筆者である本田雅一さんは、オーディオだけでなくIT技術全般に非常に知見が広く、AV評論家として著名な麻倉玲士さんと並んで、オーディオ評論家のなかでは稀なデジタルオーディオに造詣の深い評論家です。


オーディオ専門の評論家よりも、IT関係の評論家のほうが、オーディオに関する技術的なリテラシーが高いという典型的な例でもあります。


国内のオーディオ市場は縮小の一途を辿っていますが、オーディオ文化の啓蒙を担うべきオーディオ評論家のデジタル技術リテラシーの低さが、国内オーディオ市場の凋落の要因のひとつではないでしょうか(ちなみに海外のオーディオ雑誌を見ると気付くのですが、海外のオーディオ評論は、しっかりと測定データに基づいて議論されているものが多い)。


また、オーディオ評論家だけでなく、オーディオマニアのなかにも、技術的な要因を無視して、「自分の耳が一番信頼がおけるのだから、これは音が良い、これは音が悪い」と主張するユーザーが目立ちます。


そんなユーザーに限って、プラシーボ効果に翻弄されて、高価なデジタルオーディオケーブルや怪しげなアクセサリーに手を出して、音が変わった、良くなったと大騒ぎをしています。


特に、アナログオーディオの信奉者のなかには、デジタルデータのバイナリー一致やデータビットとジッターの差異について理解しようとせずに、「デジタルはアナログに比べて音が悪い」と決めつけているユーザーも少なからずいるのも大変残念なことです。


オーディオなんて、所詮、道楽趣味の世界なのだから、それで良いのかもしれませんが、そんな状況がいつか変わることを、オーディオマニアとしては心底願うばかりです。


(本文おわり)

6. [付録] Digital Audio: The Possible and Impossibleの原文

Digital Audio: The Possible and Impossible

By, Amir Majidimehr


[This article originally was published in Widescreen Review Magazine.]


Pop quiz:  Which of these statements would you say is true?

1.  If you change the HDMI cable between your Blu-ray player and AVR/Processor, the analog audio output can change.

2.  If you turn off the display and video circuits in your Blu-ray player or AVR/Processor, the analog audio output can change.

3.  If you have a DAC with USB and S/PDIF inputs, changing from one to the other can change the analog output.

4.  If you change from HDMI input to S/PDIF on your AVR or Processor, the analog output can change.


I bet most of you reading this article consider all of the above impossibilities and the talk otherwise, that of a charlatan selling you “snake oil.”  Well, I am here to tell you that the answer is the opposite!  And it is so as a matter of science and engineering, not belief.  Interestingly enough, the more technical you are the more you are apt to think what I am telling you is wrong.  The reasons for this will become clear later.


Digital Audio is Not All Digital!

The first thing to understand is that digital audio is not completely “digital.”  Yes, you read that right.  The bit you are familiar with is indeed digital, namely the numbers that represent the audio sample amplitudes.  CD audio for examples has 16 bits for each sample or two bytes.  Audio on Blu-ray can go up to 24 bits or three bytes.  As long as audio samples are inside a digital device, they remain purely digital as a set of samples to be reproduced sometime later.  You can copy them around as many times as you like and the stay pristine and lossless just like your computer files.  So far, they are the digital data we believe them to be.


At the risk of stating the obvious, we do not hear digital samples but rather analog waveforms.  To create that analog waveform we feed the digital audio samples to a device called Digital to Analog Converter or DAC for short.  That conversion needs two pieces of information: the audio samples we have just described, and their timing.  The timing tells the DAC when that audio sample needs to be output.


The reason timing is important is that sampling theory mandates that our output samples match the precise time we converted them from analog to digital originally.  If we maintain identical timing, we can show that digital systems have extremely high levels of fidelity.  Violate this principal though, and you introduce distortion. 


Think of the output waveform as a set of dots connected to each other with the dots representing our digital audio samples.  If I take those audio samples and move them left and right, the waveform would change.  That is what jitter does.  The time defines the horizontal position of those dots and changing them means distortion just the same.


As is often the case in real life, we cannot have perfect precision in the timing that drives our DAC.  Some amount of variability always exists.  We call this “jitter.”  This is a measurement of how much the timing source to the DAC varies from the ideal value.  The effect of jitter is determined by its swing (amplitude), the frequency (of jitter and source audio) and its spectrum/waveform (how it varies). 


Jitter is often poorly characterized as a single figure of merit with a unit of time such as “1.5 nanoseconds.”  I say poorly characterized because the other factors, especially the spectrum, can be much more significant, often surpassing the amplitude of jitter so represented.    That said, I am going to commit the same sin in the rest of this article and focus on that one number as to get through this introduction to jitter without writing a whole book.


You may be puzzled as to why anyone would worry about jitter if the typical numbers are measured in nanoseconds.  After all, how would 1.5 ns which translates into 1.5 billionth of a second make a difference in the output waveform?  Surely our CD audio, with relatively few samples of 44,100 per second, can’t be sensitive to such small variations.  It would be a mistake to think so as the impact of jitter is frequency and sample depth dependent.  The latter is a big problem for us as audio samples have comparatively high resolution.  Let's take the example of 16 bits in CD audio which translates into 65,535 sample values.  Those are awfully small increments in the output audio waveform whose magnitude is represented roughly by the voltage of a single AA battery!  24 bits gets even crazier with 16,777,215 levels.  Imagine the voltage of that single AA battery now being divided into 16 million tiny divisions!  For our digital audio transmission/reproduction to be "perfect," it would need to preserve all those increments.


How Much Jitter is Too Much?

One way we measure the impact of jitter is by making the simplifying assumption of it being a sine wave (it is not many times but let’s go with it).  We can then compute how much it needs to be to generate distortion equal to the voltage represented by one bit of our audio sample as described earlier.  For CD audio, it would be the amount of jitter that makes 16 bit audio sample equivalent to 15 bits.  The idea here is that if we are trying to play 16 bit audio samples we would ideally want our reproduction system to have sufficient transparency to rise up to at least that level of transparency. 


Jitter's effect on music is that it modulates all the tones in it.  Using mathematics which in the interest of not boring you I won’t go into, we can model sinusoildal jitter as a signal that generates two distortion products, one of which is the sum of the jitter and our source frequency and the other, the difference between the two.  Using this model, and the fact that CD music has a response of roughly 20 KHz, we can compute how much jitter it takes to overwhelm a single bit of our 16-bit audio sample.  Performing the math, we arrive at the unbelievable fact that jitter amplitude cannot be more than 0.5 nanoseconds!  You read that right.  If timing variation of the DAC is more than half a billionth of a second you generate enough distortion to swamp one bit of your audio sample.  It is not opinion that says that.  It is pure mathematics.  And this is for the simplest case of jitter, not the more complex but typical scenarios where there are many jitter frequencies and spectrums acting on your your music.


To visualize this obscure explanation in practice, here is a measurement of jitter acting on a single tone as created by the late Julian Dunn which was published in the digital audio measurement handbook of Audio Precision Audio Analyzer:


Digital Audio Jitter

The 10 KHz tone is our source frequency.  The distortion sidebands (smaller peaks on each side) are purely the result of changing the timing clock of the DAC by a sine wave at a frequency of 3 KHz with an amplitude of 5 nanoseconds.  This is for a system with 20 bits of resolution and hence, has a noise floor of -120 dB.  Jitter distortion of -80db is hugely above that and has reduced the system performance to well under what CD can do at 16 bits (96 dB).  So even though 7.6 billionths of a second sounds like a very small value, its impact in distorting our audio signal is quite significant. 


Jitter Sources

The next question becomes what causes jitter.  The answer is that it can be any and all things.   DACs are usually inside what is normally a very noisy environment.  The same power line that feeds our DAC and its clock eventually also feeds high-speed digital circuits such as microprocessors/DSPs,  video circuits, front panel high displays which often use voltage circuits, etc.  While there is usually filtering on both the power lines and in the DAC clock circuits, one cannot eliminate all variations and those variations translate into tiny changes in the DAC clock.  For this reason, it is possible to reduce the jitter level by turning off unnecessary circuits.  The so called “Stereo Direct” mode and such in some products performs this function as they turn off video, shut off front panels, and such.  This will often have a measureable effect on the DAC output and its performance.


But that is not all.  Some jitter is induced even before the digital samples arrive at the receiving device/DAC.  Take the S/PDIF digital audio cable.  The audio bits travel on it as a series of “ones and zeros.”  But no cable can reproduce the perfect square wave with pulses going from zero to their final value in zero time.  The cable and its driving and receiving circuits distort these waveforms and make them noisy pulses that take some time to go from low value to high.  To capture these values, despite such electrical distortion, the receiver samples them at “zero crossing.”  That is the time that a waveform crosses a threshold that tells us if it is a “one” or “zero.” 


The above lets us capture the digital sample values but when it comes to detecting their timing we are faced with a tough situation.  You can see this visually in this second measurement by Julian Dunn as he shows what happens when you try to use an ordinary audio cable for S/PDIF rather than one designed for that purpose:

Cable Induced Jitter


For starters on the left, you see that there is nothing resembling perfect square waves or pulses of zeros and ones.  The image on the right is the amplified version of the zero crossing point.  You see that as the waveform moves slightly up and down (which it does routinely as the bits change), the precise moment that it crosses our horizontal reference line also changes, and with it our timing varied as seen by the receiver.  We call this “cable induced” jitter.  Now you know why I said at the beginning that it is possible that changing cables alone could cause the analog output of the system to change.  The cable change will change the above waveforms and with it, the jitter transmitted to the external DAC (e.g. from your Blu-ray player to your AVR).


I know what you are thinking, especially if you have an engineering degree.  Why not capture the samples and then output them using a new, high precision clock?  Indeed that is what occurs in all of our digital systems such as computers where such variations exist just the same.  As long as the level of jitter is low we capture the samples and life is well. 


Unlike your computer, in digital audio our job does not finish there.  We must convert those samples to analog.  Unfortunately that conversion cannot occur using a new oscillator.  Let me repeat again: you cannot use a new clock to drive the DAC.  You must instead use the timing as it was arriving on the input to the system.  Our systems put the source as the "master" meaning it controls how fast or slow audio samples must be played.  This is because our sources can vary from the advertized sampling rate.  As an example, just because your Blu-ray player says the movie soundtrack is at “48 KHz,” it does not mean that there are 48,000 samples per second.  When the movie was mastered on disc, as part of syncing audio with video, it is entirely possible that a few more or less samples per second were put in the package than this “nominal” value.  Therefore, even though your processor/DAC knows the audio stream sampling rate, it cannot use it to derive its DAC clock.  Instead, it must “lock” onto the incoming source and attempt to measure precisely how many samples are arriving per second and obey its source of timing.  If that number is 47,999 samples/second then that is precisely what it must play.  Not one more, not one less.  If the DAC deviates you will start to lose audio/video sync as you would be falling behind or getting ahead of the video as created on disc. 


The same process exists even in the case of an audio CD as playing too fast can cause you to run out of audio samples to play or, if you go too slowly, you will eventually have too much data on your hand.  To make this system work, the DAC in your receiving device has a local clock that it varies slightly to match the incoming data rate using the zero crossing method I explained earlier.  Unfortunately this means that the DAC follows the timing variations that exists upstream from it. 


So the often stated notion that jitter doesn’t matter because the receiver captures the data and puts it in a “buffer” (memory) and then plays it from there is wrong.  Yes, audio samples are captured and stored for convenience until played.  But no, that fact does not eliminate the effect of timing variations as the DAC must output the samples using the timing prior to that buffer capture. 


The engineers reading this quickly point out that the receiver has a circuit called PLL that has the job of creating an adjustable clock for the DAC.  And that the PLL is able to filter out timing jitter on its input.  Alas, in practice the PLL is not able to fully filter all the variations.  Most implementations remain sensitive to low frequency jitter which unfortunately is the type that can be audible.  The reason for this is that the lower the frequency that the PLL filters, the slower it is able to “lock” to the incoming rate in order to capture any data.   In other words, the act of removing jitter causes the device to take longer to start playing anything.  That then puts an upper bound on how much filtering can occur in the PLL.   You may have seen this in some processors/DACs where you change the input and it seems to take a long time for it to start playing.


There are smart but more complex solutions to the above problem.  After many years of building devices with the S/PDIF interface, manufacturers have mostly figured out how to suppress jitter to very low and acceptable levels.  Then came this interface called HDMI which set us back many years in this respect.  Jitter over HDMI can be as much 10X higher than S/PDIF! 

 

Making matters worse, jitter measurements of HDMI are hard to come by.  Audio magazines take jitter measurements but in that world HDMI is a rare thing and at any rate, they don’t test many home theater products.  Video magazines don’t usually focus on audio measurements for the most part, so there is no data there either.  The one exception is Paul Miller of UK’s Hifi News who performs measurements of jitter on both interfaces.  It is eye opening to see the measurements of mass market products done side by side this way.  Here is an example measurement for the Onkyo TX-NR5007 AV Receiver:


S/PDIF: 0.79 ns

HDMI: 4.87 ns


As you see, the jitter over HDMI is not only more than six times higher than S/PDIF, it is also way above the maximum threshold for 16 bits of fidelity.  No wonder then that Paul gives the product a failing grade on that interface.  Here are the measurements on another AVR, the Yamaha RX-V3900, so that you don’t think the above is the exception:


SPDIF: 0.183 ns

HDMI: 7.7 ns


Here we have excellent response on S/PDIF but HDMI is a whopping 41 times worse!  There is not one measurement on Paul Miller’s site that has better measurements for HDMI vs. S/PDIF.  The common ratio is 10:1 in favor of S/PDIF.


Invariably, by the time I get to this point of the argument with someone, the conversation turns into “yes but… is it audible?”  As unfair as it might be, I am going to punt that question.  Here is the thing.  It doesn’t cost much to get this right.  It is like asking me why it is bad to drive a car with a slight imbalance in the tires.  Why should I do that instead of getting the tires balanced?


Look at the Onkyo or Yamaha AVR above.  If you are listening to a CD from your Blu-ray player, why not use the S/PDIF connection and with it, enjoy much reduced jitter levels?  You get better fidelity without spending a dime.  When shopping for a new product, why not search out measurements of jitter and opt for the one with better performance?  And what is wrong with pushing your equipment manufacturer to do better with HDMI than they are?  Careful attention to the design here can reduce jitter.  It is the lack of consumer awareness that has led us to such excessive levels of jitter and less than optimal performance.


My wish in writing this article is not to convince you of audibility of jitter anyway but rather, the precision of communication in discussing performance of products.  Think of this video analogy.  If I have a 1080p display but I sit too far from it, I may not discern whether it is better than 720p.  Because of that, would you call that display 720p?  Of course not.  The same is true here.   We have to stop making arguments against cable effects and such because “digital is digital.”  The cable may not make an audible difference but that is no excuse for describing the system operation incorrectly in that way.  Architecturally, we have a rather complex system here and understanding how it works is an important part of being an informed consumer.

コメント