Skip to content

AM3DのアーキテクチャとCloud API

全体アーキテクチャ

AM3Dの構成は、初期のWindowsローカル推論型から、クラウド深度推定+端末側レンダリング型へ発展しています。現在の中心構成は、端末から2D動画をクラウド側の深度推定処理へ渡し、RGBD SBS形式の動画を受け取り、端末側でLooking Glass向けに再生・変換する流れです。

処理の分担

処理実行場所理由・補足
2D動画の入力Windows / iPad / PC / Webクライアントなどファイル選択、アップロード、または画面キャプチャから入力
深度推定ローカルGPUまたはクラウドGPUWindowsではローカル推論、端末制約が大きい場合はクラウド推論
RGBD SBS生成ローカルまたはクラウドカラー映像と深度マップを左右に並べた中間形式を生成
メッシュ化 / 多視点化端末側GPULKG表示のため、再生端末側でカメラ・表示条件に応じて処理
Quilt生成端末側Looking Glass向けの多視点映像を生成
レンチキュラー変換端末側LKG個体ごとのキャリブレーション情報が必要
LKG表示端末 + Looking Glass実機キャリブレーションに基づき表示

クラウド深度推定では、動画処理中に一時ファイルやメモリ上のデータを扱います。データ保持、削除タイミング、ログに残る情報、クラウド基盤側の保持仕様は実装と運用設定に依存します。そのため、機密情報・個人情報・権利処理が未完了の素材を投入する場合は、利用条件と保持ポリシーを確認したうえで扱う必要があります。

主な出典: AM3D_Cloud_API_Report、0224クラウド検証:AM3D Cloud API 構築、0225クラウド処理、API化


AM3D Cloud API

AM3D Cloud APIは、2D動画をクラウドGPUで深度推定し、Looking Glass表示に使えるRGBD SBS MP4へ変換する方式です。2026年2月下旬の資料では、Video-Depth-Anythingを使ったクラウド変換の構成が整理されています。

本記事では、公開可能な方式・入出力仕様のみを記載します。運用環境の識別子、実エンドポイント、管理画面、デプロイ手順は扱いません。

主な出典: AM3D_Cloud_API_Report、0224クラウド検証:AM3D Cloud API 構築、0225クラウド処理、API化

APIの役割

項目内容
入力2D動画ファイル
処理フレーム抽出、Video-Depth-Anythingによる深度推定、深度マップ正規化、RGBD SBS生成
出力RGBD SBS形式のMP4
主な利用先Windowsアプリ、iPad構想、PCクライアント、Webクライアントなど
認証・制限実運用では認証、動画長制限、利用回数制限、レート制限を前提にする

リクエスト仕様の概念

動画ファイルを送信すると、RGBD SBS形式のMP4を返す同期変換APIとして整理されています。パラメータは実装時期によって変わる可能性がありますが、主な調整項目は以下です。

パラメータ種別意味
入力動画MP4 / MOV / AVIなどの動画ファイル
モデルサイズ推論精度と処理速度のバランスを選ぶ
深度タイプ相対深度またはメトリック深度の選択
推論解像度大きいほど高精度だが低速
出力最大解像度生成動画の長辺上限
出力FPS元動画維持または指定FPSへの変換
深度正規化範囲近距離・遠距離の白黒レンジを調整
深度方向白を近距離にするか、反転するか

レスポンス仕様の概念

項目内容
出力形式RGBD SBS MP4
映像配置左半分がカラー映像、右半分が深度マップ
深度表現標準設定では白が近い、黒が遠い
音声元動画の音声を引き継ぐ構成が検討された
メタ情報処理時間やジョブ識別情報をレスポンスヘッダーで返す構成が検討された

クラウド実行環境の概念

項目内容
GPUサーバーレスGPU
深度推定AIVideo-Depth-Anything
動画処理OpenCV、FFmpegなど
モデル保存クラウド側の永続ストレージまたはキャッシュ
同期APIの処理上限1リクエストあたり約10分を上限とする設計が記録されている
スケール1コンテナ1リクエストのように、負荷に応じて分離実行する構成
停止処理後すぐ破棄ではなく、一定時間アイドル保持された後に停止する構成

処理フロー


Video-Depth-Anything採用理由

AM3D Cloud APIでは、動画向けの深度推定モデルとしてVideo-Depth-Anythingが採用候補として整理されています。理由は、Looking Glass表示ではフレーム間の深度ブレが目立ちやすく、静止画向けモデルをフレーム単位で適用するだけではTemporal Consistencyを確保しにくいためです。

モデル評価整理
FlashDepth高速だが、動画全体ではフレーム間の深度揺れが課題になりやすい不採用候補
Depth Anything V2Windowsローカル版で有用だが、動画ではフレームごとの深度揺れが残る場合があるローカル版中心
Video-Depth-Anything動画向けに時間的整合性を重視できるクラウド深度推定の採用候補

Depth Anything V2を使ったWindows版はデモ可能な完成度に達していましたが、動画向けにはフレームごとの推定による深度揺れが課題でした。Video-Depth-AnythingはTemporal Consistencyに対応する動画向けモデルとして、長尺動画でも安定した3D表示を目指す方針に合っています。

関連モデルの実装・仕様確認には、Video-Depth-Anything(GitHub)を参照します。


コストと処理時間の考え方

クラウド深度推定のコストと処理時間は、入力動画の長さ、解像度、FPS、モデルサイズ、ウォームアップ有無、GPU種別、為替、CPU・メモリ課金の扱いによって大きく変わります。過去資料には複数の実測値・見積値が記録されていますが、条件が揃っていないため、公開仕様として単一の円換算値は採用しません。

本記事では、次の方針で整理します。

項目整理
採用する考え方動画長と解像度に概ね比例して処理時間・コストが増える
ウォームアップ初回実行時はモデルロードやコンテナ起動により処理時間が増える
短尺動画ウォームアップの影響が大きく、秒単価換算が割高に見える場合がある
長尺動画同期APIの処理上限に達しやすいため、分割処理または非同期ジョブ化が必要
公開記事での扱い金額は固定値として記載せず、運用時に条件を揃えて再計測する

同期APIにおける動画長の制約

2026年2月下旬の資料では、同期APIの1リクエスト処理上限として約10分が記録されています。この上限は「入力動画の長さ」ではなく「変換処理にかかる時間」の上限です。

そのため、たとえば5分動画で処理時間が30分以上かかる見積もりになる場合、同期APIでは完走できません。この場合は、以下のいずれかが必要です。

対応内容
動画を短く分割する数十秒〜数分単位に分割し、個別に変換する
解像度やFPSを下げる推論負荷を下げて処理時間を短縮する
非同期ジョブ化するリクエスト受付と処理完了通知を分ける
バッチ変換にする展示前に事前変換し、当日は変換済み素材を再生する

主な出典: AM3D_Cloud_API_Report、0225クラウド処理、API化



← AM3D — Looking Glass向け2D→3D変換・再生システム総合ガイド 概要に戻る