Skip to content

深度推定モデル比較 -- LKGディスプレイでの評価

この記事の読み方

本記事は、4つの深度推定モデルを同一のテスト画像で比較し、Looking Glass(LKG)16インチディスプレイで立体視した際の品質を評価した記録です。

深度推定モデルにはそれぞれ得意な場面と苦手な場面があります。本記事を読む際は、以下の観点を意識すると各モデルの特性を理解しやすいです。

  • 立体感の強さ -- 奥行きがはっきり出るかどうか。強すぎると不自然、弱すぎると平面的に見える
  • 立体感の自然さ -- 無理に凹凸をつけた違和感がないか。曲面がなめらかに表現されるか
  • 画質の荒さ -- 深度マップの解像度に起因するノイズやガタつきがないか
  • 破綻の有無 -- 網や細い構造物など、モデルが苦手とする被写体で崩れていないか

これらの観点を頭に入れたうえで、各モデルの評価を読み進めてください。

概要

4つの深度推定モデルを同じテスト画像で比較し、Looking Glass(LKG)16インチディスプレイで立体視した際の品質を評価した結果をまとめます。

比較対象のモデル

  • Depth Anything V2(香港大学 / TikTok) -- Hugging Face DINOv2をバックボーンとした大規模単眼深度推定モデルです。NeurIPS 2024に採択されています。Small / Base / Largeの3サイズがあり、汎用性の高さが特徴です。どのような画像でも安定した深度マップを生成できるため、最初に試すモデルとして適しています。

  • Marigold Depth Estimation(ETH Zurich) -- Hugging Face Stable Diffusionの事前学習済みモデルを活用した、拡散モデルベースの深度推定手法です。合成データのみで学習しているにもかかわらず、実世界の画像に対して高い汎化性能を発揮します。曲面の表現がなめらかで、画質と立体感のバランスに優れます。

  • MoGe(Microsoft Research) -- GitHub 単眼画像から深度だけでなく、3Dポイントクラウドやメッシュを直接出力できるモデルです。ViT-Largeをベースとしており、GLB形式での3D出力に対応するため、Blenderなどの3Dソフトとの連携が可能です。屋外風景のような遠近差が大きい画像を得意とします。

  • Apple Depth Pro(Apple) -- Hugging Face 高解像度な深度マップを高速(約2秒)に生成できるモデルです。メトリック深度(絶対スケール)の推定が可能で、他のモデルが「相対的な前後関係」しか出せないのに対し、実際の距離感に基づいた深度マップを出力できます。立体感は控えめですが、丁寧で自然な奥行き表現が特徴です。

テスト条件

このセクションでは、テストに使用した画像の選定理由と評価の見方を説明します。

使用画像

4種類のテスト画像を使用しました。それぞれ深度推定の異なる側面をテストする目的で選定されています。

バスケゴール -- 屋外での画像。ゴールの網は細い構造が複雑に重なるため、深度推定モデルにとって最も難しい被写体の一つです。板やボールのような単純な形状と、網のような複雑な形状の両方をテストできます。

Basuke.jpg

ハト -- 屋外の画像。手前のハト、中距離の花壇、遠景の建物と、奥行き方向に複数のレイヤーが存在します。モデルが「近い・中間・遠い」の3段階以上の深度を正しく推定できるかをテストします。

Hato.jpg

ポートレート -- 人物のポートレート。人間の顔は頬のふくらみ、目のくぼみ、鼻の高さなど微妙な凹凸が多く、深度推定の精密さが問われます。不自然な凹凸がつくと「気持ち悪い」印象になるため、自然さのテストでもあります。

Model.jpg

トムジェリ -- トムとジェリーの像。比較的シンプルな形状のため、4枚の中では最も容易な被写体です。なめらかな曲面(腹から足にかけて)の深度推定品質を比較できます。(猫がトムでネズミがジェリーです。)

Tom.jpg

評価基準

評価にあたっての注意事項を以下に示します。

  • 以下の評価はすべてLKG 16インチで立体視した際の所感です
  • 4モデルのうち、各画像で一番きれいに立体感を出力できたものの文頭に★を付けています
  • 総合ランキングは後述の「総合ランキング」セクションにまとめています

評価のポイント

モデル別評価を読む際には、各モデルの強み・弱み・処理速度の表にまず目を通してください。その上で、4枚の画像それぞれについて以下を意識すると比較が容易になります。

  1. 立体感の強さ: 奥行きがはっきり出ているか。特にトムジェリの腹→足の曲面に注目
  2. 破綻箇所: バスケゴールの網、ポートレートの眉間など、各モデルが苦手とする箇所はどこか
  3. 画質のバランス: 立体感が強くても画質が荒いモデルがあります。どのバランスが自分の用途に合うか

モデル別評価

Depth Anything V2

項目内容
強みどんな画像でも立体感を出すことができる
弱み凹凸感がどちらかというと極端で画質が荒く見える
処理速度6秒くらい

バスケゴール

★網がぐちゃぐちゃになっています。それ以外はきれいです。ボールも立体的に見えますし、板部分もきれいに立体に見えます。

DASDSBasuke.png

ハト

花壇の部分が水平方向に平らになっているように見えます。花壇から奥はあまり奥行きがついているように見えませんが、LKGで見るとそこらへんはもうぼやけるのであまり気になりません。

DASDSHato.png

ポートレート

★目鼻立ちがしっかり立体に見えます。全体的にすごくきれいに立体視できます。

ただ、全体的に凹凸が極端に見えます。眉間は特に立体的に見えすぎて変です。

DASDSModel.png

トムジェリ

★トムの右側のマズルのひげがないことになっています。

ジェリーのほうがトムの少し奥に見えます。腹から足、尻からしっぽにかけての奥行きがなめらかに見えますし、トムの顔の立体感もきれいに見えます。

DASDSTom .png

Marigold

項目内容
強み立体感と画質の面でバランスの良い画像を出力できる。丸みに強い
弱み立体感のあまりない画像が出力されることがある
処理速度8秒くらい

注意: 白黒反転させないとLKGでは立体視にできません。出力された画像を色反転させないと奥行き感が正負逆に見えます。

MG.png

バスケゴール

網がぐちゃぐちゃに見えます。バスケゴールの板部分もガクガクに見えます。全体的にあまりきれいではありません。

MGSDSInBasuke.png

ハト

遠景部分は比較的すごくきれいに立体的に見えます。ただ、前景部分が平面に見えます。花壇はかろうじて立体に見えますが、手前の道部分、ハトが平面に見えます。

MGSDSInHato.png

ポートレート

目鼻立ちはきれいに見えますが、ほほの立体感はあまり出力できていません。首から下はきれいに立体視できます。

MGSDSInModel.png

トムジェリ

トムのひげがないことになっています。トムの体の腹から足にかけてが滑らかに立体感が出ています。

MGSDSInTom.png

MoGe

項目内容
強み屋外画像がきれいに出力できる
弱み遠いところと近いところが極端で、中間部分の細かい立体感が苦手
処理速度6秒くらい

注意: MoGeのみ白黒の深度推定画像が出力できませんでした。

バスケゴール

ボールの奥行きもしっかりついています。網は相変わらずぐちゃぐちゃです。板部分もきれいに見えます。

MogeSDSBasuke.png

ハト

★花壇より前の地面は平面、最下部に至っては奥に凹んで見えますが、ハトもふっくらしていますし、花壇も奥行きがついていて、黒い網もきれいに奥行きがついて見えます。網以降は平面に見えます。

MogeSDSHato.png

ポートレート

どの方向から見てもこちらを見ているように見えて気持ち悪いです。ほかのモデルと見え方が違いすぎて比較になりません。眉間、鼻、肩、首は立体的に見える気がします。

MogeSDSModel.png

トムジェリ

トムの顔が平面に見えます。腹から足にかけての立体感がなめらかではなく、胴体と足が離れて見えます。ジェリーの立体感はきれいです。

MogeSDSTom.png

Apple Depth Pro

項目内容
強み無理に立体感を付けたような違和感のない画像が出力できる。立体感が丁寧
弱み屋外画像が全くダメ
処理速度2秒くらい

バスケゴール

推定画像で白くなっているところ以外立体に見えません、網もぐちゃぐちゃとか以前に全く凹凸がついていません。

ADPSDSBasuke.png

ハト

同上、全く凹凸がついて見えません。

ADPSDSHato.png

ポートレート

凹凸感はほかのモデルより控えめですが、えくぼや頬のふくらみ、目鼻立ちもきれいに立体視できます。

ADPSDSInModel.png

トムジェリ

トムの顔は一番きれいに立体視できます。立体感が一番あるかもしれません。ただ、全体的に雑に凹凸がついている印象で、腹から足にかけての立体感が極端です。おしりからしっぽはきれいです。

ADPSDSInTom.png

総合ランキング

このセクションでは、4つのテスト画像を通じた各モデルの順位を集計し、全体的な傾向を考察します。

順位バスケゴールハトポートレートトムジェリ
1位DepthAnythingMoGeDepthAnythingDepthAnything
2位MoGeDepthAnythingMarigoldApple Depth Pro
3位MarigoldMarigoldApple Depth ProMarigold
4位Apple Depth ProApple Depth ProMoGeMoGe

モデル別の順位集計

モデル1位2位3位4位
Depth Anything V23回1回0回0回
MoGe1回1回0回2回
Marigold0回1回3回0回
Apple Depth Pro0回1回1回2回

なぜDepth Anything V2が全体的に強いのか

Depth Anything V2は4枚中3枚で1位を獲得しています。この強さの背景には、DINOv2という強力な自己教師あり学習モデルをバックボーンに採用していることがあります。DINOv2は大量の画像データから汎用的な視覚特徴を学習しており、屋内・屋外を問わず安定した特徴抽出が可能です。さらに、Depth Anything V2はラベルなし実画像とラベル付き合成画像の両方を大規模に活用して学習しているため、あらゆる種類の画像に対して「そこそこ以上」の深度推定ができる汎用性を持っています。

ただし、その汎用性と引き換えに、凹凸が極端に出やすく画質が荒く見えるという側面があります。「とにかく立体感を出す」方向に最適化されたモデルと言えます。

なぜApple Depth Proは屋外が弱いのか

Apple Depth Proは屋外画像2枚(バスケゴール、ハト)でいずれも4位でした。Apple Depth Proはメトリック深度(絶対スケールの距離)を推定するモデルです。屋外画像では手前と奥の距離差が数十メートルにもなりえますが、メトリック深度モデルは実際の距離に忠実な深度マップを出力するため、LKGの表示レンジ内で見ると「ほとんど凹凸がない」ように見えてしまいます。一方、屋内やポートレートのように被写体との距離が近い場合は、繊細で自然な奥行き表現が活きます。

つまり、Apple Depth Proが「弱い」のではなく、LKGでの立体視という特定の用途において屋外画像との相性が悪いのです。

総評

このセクションでは、テスト結果を踏まえた各モデルの特性と、用途に応じた選択指針をまとめます。

すべての画像がより立体的に出力できるのはDepth Anything V2となりました。立体感という面で見ると一番きれいに立体にできていましたが、画質的な面で見ると一番荒い印象がありました。

Marigoldはすべての画像において順位が上にくることがありませんでしたが、立体感と画質の面で一番バランスが良かったのはこのモデルかもしれません。特に丸みを帯びたところはきれいに出力できます。拡散モデルベースの手法は、画像の「見た目の自然さ」を重視した深度マップを生成する傾向があり、バランスの良さはこのアーキテクチャに起因すると考えられます。

屋外の画像が一番きれいに出力できるのはMoGeでした。屋内の画像については細かい立体感がつけにくいです。一番奥と一番手前の遠近感が強調されて出力されていて、真ん中らへんの細かい凹凸感は苦手です。MoGeは深度だけでなく3Dメッシュの出力も可能なため、3Dモデルとして書き出したい場合にも選択肢になります。

Apple Depth Proはすべての画像に置いて順位が下になってしまいました。屋外での画像は全く駄目ですが、屋内画像においては一番違和感がなく、無理に立体感を付けた感じがなかったため、その点においては一番優れているといえます。立体感を付けるのは苦手ですが、一番丁寧に立体感を出せるのがApple Depth Proとなります。

用途別の選択ガイド

用途推奨モデル理由
LKGで最大限の立体感を出したいDepth Anything V2全画像で安定して強い立体感
画質と立体感のバランス重視Marigold丸みの表現が滑らかで自然
屋外風景の3D化MoGe屋外画像の遠近表現が得意、GLB出力可
リアルで丁寧な立体表現Apple Depth Pro違和感のない自然な奥行き、高速処理
3Dモデルとして出力したいMoGeGLB形式で直接Blenderに読み込み可能

追記: Apple Depth Pro改良後の比較

Apple Depth Proの画像の出力方法を改良したら結果がだいぶ変わったので、Apple Depth ProとDepth Anything V2との比較表を記しておきます。

この追記は、上記の総合ランキング時点から出力パイプラインを改善した後の再評価であり、Apple Depth Proのポテンシャルを示す重要なデータです。

改良後の画像別評価

画像評価
バスケゴールAppleDepthProはボード部分が破綻しておらず、穴が開いていない。網もすごくきれいに出力されていて、ほかのモデル(MoGeやMarigoldでも)では必ずあったボールだけこちらに出て見えるという現象が起きていない。奥の方の網は奥の方に描写されているし、手前のほうの網は手前のほうに描写されている。バスケボードの裏側も全く破綻がない。すごい。
ハト奥行き感はDepthAnythingV2のほうが強い。AppleDepthProでも充分奥のものは奥にあるんだなと認識はできるけど、奥行きのつき方がやはり薄い。その分ぶれにくくて、見やすさはある。
ポートレートDepthAnythingV2では眉間や鼻など出っ張りすぎではというところが違和感のないように解消されている。ただ、その分ほほのふくらみはあまり描画できていない。アジア人向けに写真を深度推定するならAppleDepthProのほうが違和感がないかもしれない。
トムとジェリーこれも奥行き感はDepthAnythingのほうが強いけれど、AppleDepthProでも充分に描写されているように見える。トムの腹から足にかけてや、尻からしっぽにかけてのなめらかさも十分だし、何よりボケが少ない。手前に来ている手もあまりぼけなく、しかし手より奥にある顔もきれいに見える。

比較画像

以下は左がDepth Anything V2(Largeモデル)、右がApple Depth Proの出力結果です。

DALLargeBasuke.pngADPBasukeIn3.pngDALLargeHato.pngADPHatoIn3.pngDALLargeModel.pngADPModelIn3.pngDALLargeTom .pngADPTomIn3.png

改良後の総評

松崎所感: 総評としては、DepthAnythinのほうはジャンキーな奥行きの付け方をするのに対して、AppleDepthProのほうは丁寧な奥行きの付け方をしている感じがした。マクドナルドとパン屋のサンドイッチ的な差がある。

ので、どちらがすごいとかではなく、好みの問題のような気がする。

LKGを使うにあたって、このモニターの魅力を最大限に生かしたい!というのであればより奥行きのつくDepthAnythingを使った方がよいだろうし、遺影として使ったり、何かリアルに見たいものがあって使うのであればAppleDepthProを使って深度推定したほうがより満足のいくモデルが作れると思う。

この所感は、モデル選定の核心を突いています。立体感の「量」を重視するか「質」を重視するかは用途次第であり、どちらが優れているという問題ではありません。実際のプロジェクトでは、LKGの展示目的(インパクト重視か、リアリティ重視か)に応じてモデルを使い分けることが望ましいです。

今後の検証候補

本記事ではテストしていませんが、以下のモデルも深度推定分野で注目されています。今後の検証対象として記録しておきます。

  • Metric3D v2(SenseTime / 北京大学) -- メトリック深度推定のSOTAです。カメラ内部パラメータを考慮した絶対スケールの深度推定が可能です。複数カメラ環境での利用に強いです
  • ZoeDepth(Intel ISL) -- 相対深度と絶対深度を統合的に推定します。屋内シーンに特化したfine-tuningモデルも提供しています
  • UniDepth(University of Oxford) -- カメラパラメータ不要で、メトリック深度推定を実現しています。あらゆるカメラの画像に対して汎用的に利用可能です

参考リンク


Author: 松崎 | Source: 松崎/深度推定 比較 1a6aba435ee780c3a863f055dc45aaf1.md | AI補完: 2026-03-05