A-AILIVE (えーあいらいぶ)は、AIエージェントにVTuberキャラクターを演技させて最初から最後までAIだけ(+最低限の人間の補助で)で動画配信ができるのか?っていうテーマで新しく始めた趣味のプロジェクトです。
YouTubeチャンネル : https://www.youtube.com/@A-AILIVE
近年大規模言語モデル(LLM)に実世界のツールを実行する能力(Function CallとかMCPなど)が加わりました。これでLLMは現在の時刻を確認したり、インターネットに接続して情報を検索したりすることができるわけです。このツールを実行する仕組みは同じアプリケーション内のメソッドを実行することももちろん可能です。そこでUnityアプリケーションにLLMモデルを組み込み、Unity内の各種メソッドを実行できるエージェントを実装し、そのエージェントをデジタル世界のキャラクターを演じる魂(頭脳?)にしたのが本プロジェクトの肝になります。
まず初めに、キャラクターの肉体(モデル)を準備して魂を宿らせました。モデルデータはVRoid Studioで作成し、VRM形式でUnityにインポートしたものです。エージェントが操作できるメソッド(以下ツール)はUnityのコンポーネントで実装し、キャラクターのゲームオブジェクトにツールコンポーネントを追加することでキャラクターができることを増やしていきます。各ツールコンポーネントはエージェントが実行できるメソッドのインタフェースを提供するのと同時に、中ではそれをC#処理に変換してUnityのメソッドや外部ライブラリにリレーしたりします。
この動画は最初に実装したツール、「表情ツール」のテスト動画です。私が指示すると、キャラクターはそれに合わせて自分の表情を変えることができます。自然な目パチはエージェントの操作に関係なく、ツール内部のUpdateメソッドでランダム発生させています。
次に実装したのが複数のキャラクター同士の会話です。LLMはユーザーの入力に対して出力を返す仕組みになっているので、互いの出力を相手の入力にすることで会話をさせることができます。この動画は専用のUpdate()メソッドを用意し、ループ処理のなかで交互に処理させたときの様子です。ここではまだテキストでしか表示できていません。
テキストのやり取りができるようになったところで、やはり「声」が欲しくなります。最近はText To Speech (TTS)技術も進化を遂げていて、たくさんのサービスやアプリケーションが公開されています。TTSエンジンで声を生成する機能もやはりエージェントのツールとして実装しキャラクターに追加します。口パクに関してはuLipSyncで行っています。
最後に、キャラクターのモーション(アニメーションの再生、IKを利用した顔の向き)を担当するモーションツールを追加して仕上げたのがこちらの動画になります。
さて、ここまでが技術検証の話でした。この技術検証結果をもとに、名前を付けて正式なプロジェクトとして立ち上げたのが「仮想VTuber事務所 A-AILIVE (えーあいらいぶ)」になります。YouTubeチャンネルはこちら:https://www.youtube.com/@A-AILIVE
すべての投稿動画・配信は最初の配信開始の指示以外、私の介入がありません。現時点では4つのキャラクター(VTuber 2体、事務所スタッフ2体)が存在し、私と協力して動画を作っています。
複数のAIが作る、意外な状況が楽しめる(かもしれない?)配信を楽しんでいただければと思います。
それではA-AILIVEを今後ともよろしくお願いします。
※第一話はこちら: