AM3DのアーキテクチャとCloud API

全体アーキテクチャ

AM3Dの構成は、初期のWindowsローカル推論型から、クラウド深度推定＋端末側レンダリング型へ発展しています。現在の中心構成は、端末から2D動画をクラウド側の深度推定処理へ渡し、RGBD SBS形式の動画を受け取り、端末側でLooking Glass向けに再生・変換する流れです。

処理の分担

処理	実行場所	理由・補足
2D動画の入力	Windows / iPad / PC / Webクライアントなど	ファイル選択、アップロード、または画面キャプチャから入力
深度推定	ローカルGPUまたはクラウドGPU	Windowsではローカル推論、端末制約が大きい場合はクラウド推論
RGBD SBS生成	ローカルまたはクラウド	カラー映像と深度マップを左右に並べた中間形式を生成
メッシュ化 / 多視点化	端末側GPU	LKG表示のため、再生端末側でカメラ・表示条件に応じて処理
Quilt生成	端末側	Looking Glass向けの多視点映像を生成
レンチキュラー変換	端末側	LKG個体ごとのキャリブレーション情報が必要
LKG表示	端末 + Looking Glass	実機キャリブレーションに基づき表示

クラウド深度推定では、動画処理中に一時ファイルやメモリ上のデータを扱います。データ保持、削除タイミング、ログに残る情報、クラウド基盤側の保持仕様は実装と運用設定に依存します。そのため、機密情報・個人情報・権利処理が未完了の素材を投入する場合は、利用条件と保持ポリシーを確認したうえで扱う必要があります。

主な出典: AM3D_Cloud_API_Report、0224クラウド検証：AM3D Cloud API 構築、0225クラウド処理、API化

AM3D Cloud API

AM3D Cloud APIは、2D動画をクラウドGPUで深度推定し、Looking Glass表示に使えるRGBD SBS MP4へ変換する方式です。2026年2月下旬の資料では、Video-Depth-Anythingを使ったクラウド変換の構成が整理されています。

本記事では、公開可能な方式・入出力仕様のみを記載します。運用環境の識別子、実エンドポイント、管理画面、デプロイ手順は扱いません。

主な出典: AM3D_Cloud_API_Report、0224クラウド検証：AM3D Cloud API 構築、0225クラウド処理、API化

APIの役割

項目	内容
入力	2D動画ファイル
処理	フレーム抽出、Video-Depth-Anythingによる深度推定、深度マップ正規化、RGBD SBS生成
出力	RGBD SBS形式のMP4
主な利用先	Windowsアプリ、iPad構想、PCクライアント、Webクライアントなど
認証・制限	実運用では認証、動画長制限、利用回数制限、レート制限を前提にする

リクエスト仕様の概念

動画ファイルを送信すると、RGBD SBS形式のMP4を返す同期変換APIとして整理されています。パラメータは実装時期によって変わる可能性がありますが、主な調整項目は以下です。

パラメータ種別	意味
入力動画	MP4 / MOV / AVIなどの動画ファイル
モデルサイズ	推論精度と処理速度のバランスを選ぶ
深度タイプ	相対深度またはメトリック深度の選択
推論解像度	大きいほど高精度だが低速
出力最大解像度	生成動画の長辺上限
出力FPS	元動画維持または指定FPSへの変換
深度正規化範囲	近距離・遠距離の白黒レンジを調整
深度方向	白を近距離にするか、反転するか

レスポンス仕様の概念

項目	内容
出力形式	RGBD SBS MP4
映像配置	左半分がカラー映像、右半分が深度マップ
深度表現	標準設定では白が近い、黒が遠い
音声	元動画の音声を引き継ぐ構成が検討された
メタ情報	処理時間やジョブ識別情報をレスポンスヘッダーで返す構成が検討された

クラウド実行環境の概念

項目	内容
GPU	サーバーレスGPU
深度推定AI	Video-Depth-Anything
動画処理	OpenCV、FFmpegなど
モデル保存	クラウド側の永続ストレージまたはキャッシュ
同期APIの処理上限	1リクエストあたり約10分を上限とする設計が記録されている
スケール	1コンテナ1リクエストのように、負荷に応じて分離実行する構成
停止	処理後すぐ破棄ではなく、一定時間アイドル保持された後に停止する構成

処理フロー

Video-Depth-Anything採用理由

AM3D Cloud APIでは、動画向けの深度推定モデルとしてVideo-Depth-Anythingが採用候補として整理されています。理由は、Looking Glass表示ではフレーム間の深度ブレが目立ちやすく、静止画向けモデルをフレーム単位で適用するだけではTemporal Consistencyを確保しにくいためです。

モデル	評価	整理
FlashDepth	高速だが、動画全体ではフレーム間の深度揺れが課題になりやすい	不採用候補
Depth Anything V2	Windowsローカル版で有用だが、動画ではフレームごとの深度揺れが残る場合がある	ローカル版中心
Video-Depth-Anything	動画向けに時間的整合性を重視できる	クラウド深度推定の採用候補

Depth Anything V2を使ったWindows版はデモ可能な完成度に達していましたが、動画向けにはフレームごとの推定による深度揺れが課題でした。Video-Depth-AnythingはTemporal Consistencyに対応する動画向けモデルとして、長尺動画でも安定した3D表示を目指す方針に合っています。

関連モデルの実装・仕様確認には、Video-Depth-Anything（GitHub）を参照します。

コストと処理時間の考え方

クラウド深度推定のコストと処理時間は、入力動画の長さ、解像度、FPS、モデルサイズ、ウォームアップ有無、GPU種別、為替、CPU・メモリ課金の扱いによって大きく変わります。過去資料には複数の実測値・見積値が記録されていますが、条件が揃っていないため、公開仕様として単一の円換算値は採用しません。

本記事では、次の方針で整理します。

項目	整理
採用する考え方	動画長と解像度に概ね比例して処理時間・コストが増える
ウォームアップ	初回実行時はモデルロードやコンテナ起動により処理時間が増える
短尺動画	ウォームアップの影響が大きく、秒単価換算が割高に見える場合がある
長尺動画	同期APIの処理上限に達しやすいため、分割処理または非同期ジョブ化が必要
公開記事での扱い	金額は固定値として記載せず、運用時に条件を揃えて再計測する

同期APIにおける動画長の制約

2026年2月下旬の資料では、同期APIの1リクエスト処理上限として約10分が記録されています。この上限は「入力動画の長さ」ではなく「変換処理にかかる時間」の上限です。

そのため、たとえば5分動画で処理時間が30分以上かかる見積もりになる場合、同期APIでは完走できません。この場合は、以下のいずれかが必要です。

対応	内容
動画を短く分割する	数十秒〜数分単位に分割し、個別に変換する
解像度やFPSを下げる	推論負荷を下げて処理時間を短縮する
非同期ジョブ化する	リクエスト受付と処理完了通知を分ける
バッチ変換にする	展示前に事前変換し、当日は変換済み素材を再生する

主な出典: AM3D_Cloud_API_Report、0225クラウド処理、API化

← AM3D — Looking Glass向け2D→3D変換・再生システム総合ガイド概要に戻る

AM3DのアーキテクチャとCloud API ​

全体アーキテクチャ ​

処理の分担 ​

AM3D Cloud API ​

APIの役割 ​

リクエスト仕様の概念 ​

レスポンス仕様の概念 ​

クラウド実行環境の概念 ​

処理フロー ​

Video-Depth-Anything採用理由 ​

コストと処理時間の考え方 ​

同期APIにおける動画長の制約 ​