休暇で暇だったので、割と最近注目されているAI技術を使って、キャラクターに新たな命を吹き込む実験をしてみました。
その名も「LivePortrait」。
リップシンク技術の進化「リップシンク」という言葉自体はいわゆる「口パク」を指しますが、音声に合わせて口の動きを同期させる技術のこともそう呼ばれます。
この分野は機械学習の世界でもかなりホットな話題です。
従来のリップシンク技術では、自然な顔の動きを実現するためにはそれなりの量のデータが必要でした。つまりたくさんの表情や動きのサンプルがないと、リアルな表現は難しいです。
あるいは口の位置、動かし方、可動域などの設定を手作業で地道に入れていくか、という感じでした。
LivePortraitの革新性しかしLivePortraitが登場して結構様子が変わりそうです。
この技術が驚くべきなのは、たった1枚の画像さえあれば驚くほど自然に(私はそう感じました)表情をコピーできるという点です。
他に必要なのは実際に喋ったり表情を動かしている人間の動画のみ。
実験内容今回の実験では、以下の手順で行いました:
1. FF14内のキャラのスクリーンショットを1枚撮影
2. 自分の表情を撮影した短い動画を用意
3. LivePortraitを使って、キャラクターの顔に動きを適用
結果実験台はたまたま近くにいたウルダハの冒険者指導教官殿
自分の表情は恥ずかしいのでオープンソースになっている人間の表情の動画を使用
※gifに変換したのでフレームレート低いですが、それでも割とリアルなので一応再生注意
Click to showClick to hide
ついでにララフェルはどうなるかと思い、クイックサンドにいるパパスさん
Click to showClick to hide
瞬きは自然ですが、さすがに口の特徴点がうまく認識されてない感じですね…
微調整はできるみたいです。面倒そうなので未試行ですが。。
感想いつだったか吉田Pか誰かが「いつかゲームキャラクターでZoomミーティングのアバターとかを作れたら面白い」と話していたことを思い出しました。
LivePortraitみたいな技術の登場により、その辺が一般化する日はそう遠くない気がします。
一応すでに、それなりのハイスペPCであれば、Webカメラに映る自分の映像からリアルタイムに画像に反映させられるようです。
オンライン飲み会に各々のキャラクターのアバターで参加したり、自キャラのスクショでそのままVtuberになれたり。
FF14の世界とリアルの境界線がどんどん曖昧になっていく気がしました。
注意点LivePortraitの使用には、まだある程度専門的な知識や環境が必要なので導入方法は割愛。。
Hugging Faceならすぐ試せますが。
また、他人の顔写真や、著作権のあるキャラクターへの使用には十分注意が必要です。
あくまで個人で楽しむ範囲に留めましょう。
この記事も怒られたらすぐ消します。
LivePortraitのGitHubリポジトリ
https://github.com/KwaiVGI/LivePortraitHugging Face(デモ)
https://huggingface.co/spaces/KwaiVGI/LivePortrait