Skip to content

AIでクローン生成

特定の人物の動画や写真からAIでクローンを作り出す方法を調査します。


音声素材整理

まずは学習用の音声素材を整えていきます。

音声素材のクリーニング

頂いている素材は古い映像でノイズや環境音があるのでそれを除去してクリアな音声にします。

AIを使えば一発でできそうですが無料版で商用利用できなさそう↓

https://www.lalal.ai/ja/voice-cleaner/?gad_source=1&gad_campaignid=22592607244&gbraid=0AAAAACTgyH1j-ceGUBLWiVe-WaBAGyogz&gclid=Cj0KCQjwyvfDBhDYARIsAItzbZFLvSgG4fpFbmQrH-NGa2TOI1ozR21Gj-Z6eNVMkST8Y-pRM1R9TIQaAgiYEALw_wcB

今回はAdobeAuditionで行います。

https://youtu.be/68dSBxq8s-I?si=K97RMjxM_ZuoI0sY

ついでに動画尺が長すぎるのでカットして5分くらいにしました。

音声素材sample↓

Material_sample.mp3


原稿内容の文字起こし

読み上げさせたい内容の動画ももらっているので文字起こしします。

今回はGoogleAIStudioのGemini2.5Proで文字起こし。

https://aistudio.google.com/prompts/new_chat

スピーチ内容は以下↓

jsx
회사가 중견 기업으로 성장하던 시기인 1990년 초에 조그마한 재단을 만들어 여러 분야에서 우수한 기술 인력을 양성하는 데 지원을 하고 회사가 위치한 안산 지역 사회에 대한 보답으로 맞벌이 부부를 위한 어린이집, 장애인의 일터, 어린이 과학관 등을 건립해서 지원한 일이 커다란 기쁨과 보람을 가지고 있습니다. 금번 인천 수상을 계기로 인천 선생의 숭고한 훌륭한 모습을 본받아 우리나라 전자 산업 발전에 이바지하고 기술 인력 양성과 지역 사회 발전에 미력하나마 보탬이 되도록 노력하겠습니다. 그동안 많은 도움과 격려를 해 주신 모든 분들께 이 자리를 빌려 다시 한번 감사의 뜻을 전하며 끝으로 오늘 바쁘신 중에도 자리를 함께해 주신 모든 분들의 가정에 행운이 충만하시기를 기원합니다. 감사합니다.

日本語訳↓

jsx
会社が中堅企業へと成長していた1990年代初頭に、小さな財団を設立し、さまざまな分野で優秀な技術人材の育成を支援してまいりました。また、会社が所在する安山(アンサン)地域社会への恩返しとして、共働き夫婦のための保育園、障がい者の職場、子ども科学館などを建設し、支援してきたことは、私にとって大きな喜びとやりがいでありました。

今回の仁川賞の受賞を機に、仁川先生の崇高で立派なお姿を見習い、我が国の電子産業の発展に貢献し、技術人材の育成と地域社会の発展に微力ながら尽力してまいりたいと存じます。

これまで多くのご支援とご声援をいただいた皆様に、この場を借りて改めて感謝の意を表しますとともに、最後に、本日ご多忙の中ご臨席いただきました皆様のご家庭に幸運が満ちあふれますよう心よりお祈り申し上げます。

ありがとうございました。

音声を生成していく


MiniMax Audio

https://www.minimax.io/audio

使い方参考↓

https://youtu.be/-6_7ijSgoK4?si=Qu9L-NH0bSe2s609

他に有名なツールもあるが韓国語対応していなかったり、課金必須やフェイク防止でリアルタイム録音からしか生成できないような制限があるためこのツールを選定。

クローン生成された音声↓

minimax_sample.mp3


原稿を読み上げさせた↓

Minimax_SpeachVoice.mp3

韓国語がわからないのでイントネーションなどの不自然さが判別できないが声質は本人に近そう。

ガチャ要素があり、生成するごとにイントネーションなど変わるらしい。

課金すれば細かい調整や感情なども表現できる。

ライセンス

プラン名月額料金クレジット(月)音声時間目安商用利用ボイスクローン上限特徴
Free無料10,000(ボーナス)約12分最大3ボイス(10秒音声)多言語対応、指定感情×言語での音声生成が一時的に無料
Starter$5/月(約800円)100,000+10,000(ボーナス)約2.2時間最大10ボイスFreeプランに加えて商用利用が可能
Creator$15/月(約2,400円)250,000+10,000(ボーナス)約5.2時間最大30ボイスより高速な音声生成、商用利用可能
Standard$30/月(約4,800円)600,000+10,000(ボーナス)約12.2時間最大50ボイス人気プラン。業務利用に適したボリューム
Pro$99/月(約15,800円)2,200,000+10,000(ボーナス)約44.2時間最大250ボイスプロ向け。大規模な利用を想定
Top-up$50 / 100万クレジット-変動(都度課金)❌(定期契約特典なし)なし(制限あり)サブスクなしで必要な分だけ補充可能。ただし機能制限あり

音声に合わせたリップシンク映像を作成

写真からAIアバター生成でリップシンク

まずは元の素材からリップシンク映像を生成してみます。

いくつかAIサービスはあるのですが配布クレジットと時間の関係で以下二つで比較します。

https://app.heygen.com/home

https://www.domoai.app/ja/home

左がHeyGen 右がDomoAI

HeyGen_sample.mp4

DomoAI_sample.mp4

DomoAIのほうがリップシンクの精度が高そうなのでDomoAIを使う方向性でいきたい。

ライセンスは以下↓

プラン名月額料金クレジット / 月主な機能
ベーシック$9.99500 クレジット- ファストモードで500枚の画像 or 約30本の動画生成- 透かしなし- クレジット追加購入可能- 3つの並列ファストトレーン- Regular Updatesで全スタイルアクセス可
スタンダード$27.991,500 クレジット + 無制限のRelaxモード- Relaxモードで無制限生成- ファストモードで1,500枚の画像 or 約100本の動画生成- 透かしなし- クレジット追加購入可能- 3つの並列ファストトレーン- Regular Updatesで全スタイルアクセス可
プロ$69.994,000 クレジット + 無制限のRelaxモード- Relaxモードで無制限生成- ファストモードで4,000枚の画像 or 約267本の動画生成- /video 20s/30sは高速モード限定- /text2video は高速モードのみ10秒生成可能- 透かしなし- クレジット追加購入可能- 6つの並列ファストトレーン- Regular Updatesで全スタイルアクセス可

年払いにしたらもう少し安くなるが単発案件っぽいので月払い表記です。

60秒のリップシンクを一括で生成できる&クレジット的にProプラン推奨。

スタンダードでも音声を細かく切ってそれぞれ生成してあとから編集でくっつければできるが工数がかかる。

ちなみに60秒で180クレジット消費です。


人物写真からAIで架空の写真を生成

様々なモデルで検証していきます。

顔の一貫性を保ったままアロハシャツに着替えさせて海辺に立たせることを目標とします。

元画像↓

大徳電子の金正植(キム·ジョンシク)会長.jpg

GoogleAIStudio(無料)

https://aistudio.google.com/prompts/new_chat

モデルはGemini 2.0 Flash Preview Image Generation

まずはアロハシャツに着替えさせます。

プロンプトはこの男性の服装をアロハシャツに変更してください

GoogleAIstudio2.jpeg

次に海辺に立たせます。

プロンプトはこの男性を海辺のビーチに立たせてください

GoogleAIstudio.jpeg

無料でこれはいいですね。

画質はアップスケールできるAI使えば問題なさそう。


flux-pro/kontext(有料)

fal.aiというプラットフォーム経由で使います。

これはLoRaがなくても画像の一貫性を保つことが得意なモデルです。

https://fal.ai/models/fal-ai/flux-pro/kontext

有料ですが一回の生成で0.04ドルくらいでコストが低いのでかなり良いです。

アロハシャツに着替える。

プロンプトはA man wearing an Aloha shirt.

fluxContext.jpg

海辺に立たせる。

プロンプトはA man standing by the seaside.

fluxContext2.jpg

こちらも結構いい感じです。

腕の筋肉が少し発達してますが。


Midjourney(有料)

https://www.midjourney.com/explore?tab=top

OmniRefarence機能というV7から登場した機能を使えば人物の一貫性を保って画像が生成できます。

コスト高いので候補外ですがついでに検証。

プロンプト:A man wearing an Aloha shirt standing by the seaside.

Midjourney.png

よさそうですがほかのモデルと違って何回か生成しなおして最も顔が近いものを選んでいます。

安定性はないですが画像に強いAIなのでカスタマイズ性は一番高いと思います。


スピーチしてる画像を生成して喋らせてみる

GoogleAIStudioで生成。

画質があまりよろしくないのが気になります。

Generated Image July 25, 2025 - 1_26PM.png

リップシンクはHeyGenを使います。

15s以内で喋らせてみる。

GHeyGen_SpeachSample.mp4

ついでに動きや表情を指示できるBeta機能を試してみました。

プロンプト:Speaking with a gentle smile while moving their hands to match the conversation. ちゃんと効いてそうな感じでいいですね。

もし高画質にしたいならアップスケールAIに課金する必要があるかもなので簡易的に調べてみました。

サービス最低価格
https://www.pixelcut.ai/image-upscaler?gad_source=1&gad_campaignid=22687787431&gbraid=0AAAAABcj8pMe_AwDJqRrlsRQJVSv8bTCc&gclid=Cj0KCQjws4fEBhD-ARIsACC3d2_dpBSwd-ruW8Xrxspg3NJV_18kQlnQfsREHHLBdqJ5B0Ixsg2BwTEaAlAxEALw_wcB10ドル/月
https://picwish.com/jp/unblur-image-portrait?apptype=ads-gg-unblur-jp&gad_source=1&gad_campaignid=21683049791&gbraid=0AAAAACjUYSbnFgi4xwFWXr0d7YnCkWBt4&gclid=Cj0KCQjws4fEBhD-ARIsACC3d2_UBqdUsGh7mloromY-tWttn80DYm_9xZ4TCcn5yNbyjcB0FdNZuncaAkyYEALw_wcB1,350円/月
https://www.canva.com/ja_jp/pricing/1,180円/月

大徳電子スピーチ原稿


Author: 村井 | Source: 村井\AIでクローン生成 238aba435ee78068ba98f985761b129c.md