Appearance
AM3DのアーキテクチャとCloud API
全体アーキテクチャ
AM3Dの構成は、初期のWindowsローカル推論型から、クラウド深度推定+端末側レンダリング型へ発展しています。現在の中心構成は、端末から2D動画をクラウド側の深度推定処理へ渡し、RGBD SBS形式の動画を受け取り、端末側でLooking Glass向けに再生・変換する流れです。
処理の分担
| 処理 | 実行場所 | 理由・補足 |
|---|---|---|
| 2D動画の入力 | Windows / iPad / PC / Webクライアントなど | ファイル選択、アップロード、または画面キャプチャから入力 |
| 深度推定 | ローカルGPUまたはクラウドGPU | Windowsではローカル推論、端末制約が大きい場合はクラウド推論 |
| RGBD SBS生成 | ローカルまたはクラウド | カラー映像と深度マップを左右に並べた中間形式を生成 |
| メッシュ化 / 多視点化 | 端末側GPU | LKG表示のため、再生端末側でカメラ・表示条件に応じて処理 |
| Quilt生成 | 端末側 | Looking Glass向けの多視点映像を生成 |
| レンチキュラー変換 | 端末側 | LKG個体ごとのキャリブレーション情報が必要 |
| LKG表示 | 端末 + Looking Glass | 実機キャリブレーションに基づき表示 |
クラウド深度推定では、動画処理中に一時ファイルやメモリ上のデータを扱います。データ保持、削除タイミング、ログに残る情報、クラウド基盤側の保持仕様は実装と運用設定に依存します。そのため、機密情報・個人情報・権利処理が未完了の素材を投入する場合は、利用条件と保持ポリシーを確認したうえで扱う必要があります。
主な出典: AM3D_Cloud_API_Report、0224クラウド検証:AM3D Cloud API 構築、0225クラウド処理、API化
AM3D Cloud API
AM3D Cloud APIは、2D動画をクラウドGPUで深度推定し、Looking Glass表示に使えるRGBD SBS MP4へ変換する方式です。2026年2月下旬の資料では、Video-Depth-Anythingを使ったクラウド変換の構成が整理されています。
本記事では、公開可能な方式・入出力仕様のみを記載します。運用環境の識別子、実エンドポイント、管理画面、デプロイ手順は扱いません。
主な出典: AM3D_Cloud_API_Report、0224クラウド検証:AM3D Cloud API 構築、0225クラウド処理、API化
APIの役割
| 項目 | 内容 |
|---|---|
| 入力 | 2D動画ファイル |
| 処理 | フレーム抽出、Video-Depth-Anythingによる深度推定、深度マップ正規化、RGBD SBS生成 |
| 出力 | RGBD SBS形式のMP4 |
| 主な利用先 | Windowsアプリ、iPad構想、PCクライアント、Webクライアントなど |
| 認証・制限 | 実運用では認証、動画長制限、利用回数制限、レート制限を前提にする |
リクエスト仕様の概念
動画ファイルを送信すると、RGBD SBS形式のMP4を返す同期変換APIとして整理されています。パラメータは実装時期によって変わる可能性がありますが、主な調整項目は以下です。
| パラメータ種別 | 意味 |
|---|---|
| 入力動画 | MP4 / MOV / AVIなどの動画ファイル |
| モデルサイズ | 推論精度と処理速度のバランスを選ぶ |
| 深度タイプ | 相対深度またはメトリック深度の選択 |
| 推論解像度 | 大きいほど高精度だが低速 |
| 出力最大解像度 | 生成動画の長辺上限 |
| 出力FPS | 元動画維持または指定FPSへの変換 |
| 深度正規化範囲 | 近距離・遠距離の白黒レンジを調整 |
| 深度方向 | 白を近距離にするか、反転するか |
レスポンス仕様の概念
| 項目 | 内容 |
|---|---|
| 出力形式 | RGBD SBS MP4 |
| 映像配置 | 左半分がカラー映像、右半分が深度マップ |
| 深度表現 | 標準設定では白が近い、黒が遠い |
| 音声 | 元動画の音声を引き継ぐ構成が検討された |
| メタ情報 | 処理時間やジョブ識別情報をレスポンスヘッダーで返す構成が検討された |
クラウド実行環境の概念
| 項目 | 内容 |
|---|---|
| GPU | サーバーレスGPU |
| 深度推定AI | Video-Depth-Anything |
| 動画処理 | OpenCV、FFmpegなど |
| モデル保存 | クラウド側の永続ストレージまたはキャッシュ |
| 同期APIの処理上限 | 1リクエストあたり約10分を上限とする設計が記録されている |
| スケール | 1コンテナ1リクエストのように、負荷に応じて分離実行する構成 |
| 停止 | 処理後すぐ破棄ではなく、一定時間アイドル保持された後に停止する構成 |
処理フロー
Video-Depth-Anything採用理由
AM3D Cloud APIでは、動画向けの深度推定モデルとしてVideo-Depth-Anythingが採用候補として整理されています。理由は、Looking Glass表示ではフレーム間の深度ブレが目立ちやすく、静止画向けモデルをフレーム単位で適用するだけではTemporal Consistencyを確保しにくいためです。
| モデル | 評価 | 整理 |
|---|---|---|
| FlashDepth | 高速だが、動画全体ではフレーム間の深度揺れが課題になりやすい | 不採用候補 |
| Depth Anything V2 | Windowsローカル版で有用だが、動画ではフレームごとの深度揺れが残る場合がある | ローカル版中心 |
| Video-Depth-Anything | 動画向けに時間的整合性を重視できる | クラウド深度推定の採用候補 |
Depth Anything V2を使ったWindows版はデモ可能な完成度に達していましたが、動画向けにはフレームごとの推定による深度揺れが課題でした。Video-Depth-AnythingはTemporal Consistencyに対応する動画向けモデルとして、長尺動画でも安定した3D表示を目指す方針に合っています。
関連モデルの実装・仕様確認には、Video-Depth-Anything(GitHub)を参照します。
コストと処理時間の考え方
クラウド深度推定のコストと処理時間は、入力動画の長さ、解像度、FPS、モデルサイズ、ウォームアップ有無、GPU種別、為替、CPU・メモリ課金の扱いによって大きく変わります。過去資料には複数の実測値・見積値が記録されていますが、条件が揃っていないため、公開仕様として単一の円換算値は採用しません。
本記事では、次の方針で整理します。
| 項目 | 整理 |
|---|---|
| 採用する考え方 | 動画長と解像度に概ね比例して処理時間・コストが増える |
| ウォームアップ | 初回実行時はモデルロードやコンテナ起動により処理時間が増える |
| 短尺動画 | ウォームアップの影響が大きく、秒単価換算が割高に見える場合がある |
| 長尺動画 | 同期APIの処理上限に達しやすいため、分割処理または非同期ジョブ化が必要 |
| 公開記事での扱い | 金額は固定値として記載せず、運用時に条件を揃えて再計測する |
同期APIにおける動画長の制約
2026年2月下旬の資料では、同期APIの1リクエスト処理上限として約10分が記録されています。この上限は「入力動画の長さ」ではなく「変換処理にかかる時間」の上限です。
そのため、たとえば5分動画で処理時間が30分以上かかる見積もりになる場合、同期APIでは完走できません。この場合は、以下のいずれかが必要です。
| 対応 | 内容 |
|---|---|
| 動画を短く分割する | 数十秒〜数分単位に分割し、個別に変換する |
| 解像度やFPSを下げる | 推論負荷を下げて処理時間を短縮する |
| 非同期ジョブ化する | リクエスト受付と処理完了通知を分ける |
| バッチ変換にする | 展示前に事前変換し、当日は変換済み素材を再生する |
主な出典: AM3D_Cloud_API_Report、0225クラウド処理、API化