【Python×Stable Diffusion】鏡の向こうへ。Webカメラ映像をリアルタイムで「実写AITuber」に変える魔法の実装ガイド

鏡を覗き込んだとき、そこに映るのはいつも通りの「私」です。物理法則に縛られ、昨日と同じ顔をした私。

でも、もしその鏡が「魔法の鏡」だとしたら？
手を振れば、銀髪のエルフが振り返す。微笑めば、サイバーパンクなアンドロイドが微笑み返す。

みなさん、こんにちは。AIクリエイターのミオです。

今日は、そんな魔法をあなたのPCの中に作り出す方法をお話しします。特別なモーショントラッキングスーツも、高価なVR機器も必要ありません。必要なのは、いつものStable DiffusionとWebカメラ、そして少しのPythonコードだけ。

これは単なる「AITuberの作り方」ではありません。あなたの表情と動きをリアルタイムでAIアートに変換し、現実とデジタルの境界を溶かすライブパフォーマンスへの招待状です。

1. リアルタイム生成の「0.1秒」を巡る戦い
1. 💡 従来の課題と解決策
2. なぜ「WebUI API」を使うのか？
3. 実践ガイド：鏡の国へのポータルを開く
4. 応用：VJパフォーマンスへの昇華
5. まとめ：デジタルな仮面を被る自由

1. リアルタイム生成の「0.1秒」を巡る戦い

これまで、Stable Diffusionで画像を生成するには数秒〜数十秒かかりました。しかし、ライブ配信やVJ（ビジュアルジョッキー）として使うには、自分の動きに合わせて即座に絵が変わる「リアルタイム性」が不可欠です。

💡 従来の課題と解決策

課題 (Latency): 通常の生成では遅すぎて、動きと絵がズレてしまう。
解決策 (Speed): LCM (Latent Consistency Models) 技術の登場です。

LCMやLCM-LoRAを使用することで、従来20〜30ステップ必要だった生成プロセスを、わずか4〜8ステップに短縮できます。これにより、画質を維持したまま、まるでビデオ通話のようなレスポンス速度を実現できるようになったのです。

2. なぜ「WebUI API」を使うのか？

世の中には「StreamDiffusion」のような超高速な専用パイプラインも登場していますが、今回はあえて「Stable Diffusion WebUI (Automatic1111)」のAPI機能を使います。

手法	メリット	デメリット
StreamDiffusion	爆速 (100fps超えも可能)	環境構築が難解で、既存のモデル資産が使いにくい場合がある。
WebUI API (今回)	既存の環境・モデル・LoRAがそのまま使える。導入が簡単。	通信オーバーヘッドがあるため、FPSは少し落ちる (10〜20fps程度)。

アーティストにとって「使い慣れたモデルやLoRAがすぐに使える」ことは最大の武器です。WebUI APIなら、お気に入りの画風をそのままリアルタイム表現に持ち込めるのです。

3. 実践ガイド：鏡の国へのポータルを開く

では、実際に手を動かしていきましょう。魔法の杖（コード）を振る時間です。

Step 1: Stable Diffusion WebUIのAPIモード起動

まず、WebUIが外部からの命令（APIリクエスト）を受け取れるように設定します。

Stable Diffusion WebUIのインストールフォルダにある webui-user.bat (Windows) または webui-user.sh (Mac/Linux) を右クリックして編集します。
COMMANDLINE_ARGS の行に --api を追加します。

set COMMANDLINE_ARGS=--xformers --api

保存してWebUIを起動してください。見た目は変わりませんが、裏側で「耳」が澄まされています。

Step 2: 高速化の準備 (LCM-LoRA)

リアルタイム生成には速度が命です。LCM-LoRAを導入しましょう。

Hugging Faceなどから lcm-lora-sdv1-5.safetensors をダウンロードし、models/Lora フォルダに入れます。
WebUI上で、ベースモデル（例: Counterfeit-V3.0など）を選択しておきます。

Step 3: 魔法のPythonコード

ここが今回のハイライトです。Webカメラの映像をキャプチャし、AIに描き直させ、画面に表示するPythonスクリプトです。

事前準備: Pythonがインストールされた環境で、以下のライブラリをインストールしてください。

pip install opencv-python requests numpy

実行コード (realtime_aituber.py):

import cv2
import requests
import base64
import numpy as np
import time
import json

# --- 設定エリア ---
WEBUI_URL = "http://127.0.0.1:7860"
PROMPT = "1girl, silver hair, cybernetic glowing eyes, masterpiece, best quality, "
NEGATIVE_PROMPT = "low quality, bad anatomy, worst quality, watermark, blur"

# リアルタイム性を高めるためのLCM設定
STEPS = 5        # LCMなら4-8で十分
CFG_SCALE = 1.5  # LCMなら1-2と低くする
DENOISING = 0.4  # 元画像のポーズを維持するため0.3-0.5推奨

def encode_image_to_base64(image):
    _, buffer = cv2.imencode('.jpg', image)
    return base64.b64encode(buffer).decode('utf-8')

def decode_base64_to_image(base64_string):
    img_data = base64.b64decode(base64_string)
    np_arr = np.frombuffer(img_data, np.uint8)
    return cv2.imdecode(np_arr, cv2.IMREAD_COLOR)

def main():
    cap = cv2.VideoCapture(0) # Webカメラ起動
    if not cap.isOpened():
        print("Webカメラが見つかりません")
        return

    print("Start! 'q'キーで終了")

    while True:
        ret, frame = cap.read()
        if not ret: break

        # 画像サイズを小さくして高速化 (512x512推奨)
        frame = cv2.resize(frame, (512, 512))
        
        # Base64エンコード
        b64_image = encode_image_to_base64(frame)

        # APIリクエスト作成
        payload = {
            "init_images": [b64_image],
            "prompt": PROMPT,
            "negative_prompt": NEGATIVE_PROMPT,
            "steps": STEPS,
            "cfg_scale": CFG_SCALE,
            "denoising_strength": DENOISING,
            "width": 512,
            "height": 512,
            "sampler_name": "Euler a", # LCMと相性が良い
            "batch_size": 1,
        }

        try:
            start_time = time.time()
            response = requests.post(f"{WEBUI_URL}/sdapi/v1/img2img", json=payload)
            
            if response.status_code == 200:
                r = response.json()
                result_image = decode_base64_to_image(r['images'][0])
                
                # 元映像と生成映像を横に並べて表示
                combined = np.hstack((frame, result_image))
                cv2.imshow('Real-time AITuber (Left: Cam, Right: AI)', combined)
                
                fps = 1.0 / (time.time() - start_time)
                print(f"FPS: {fps:.2f}")
            else:
                print(f"Error: {response.status_code}")

        except Exception as e:
            print(f"Connection Error: {e}")

        if cv2.waitKey(1) & 0xFF == ord('q'):
            break

    cap.release()
    cv2.destroyAllWindows()

if __name__ == "__main__":
    main()

Step 4: プロンプトとパラメータの微調整

実行すると、左に現実のあなた、右にAI化されたあなたが表示されます。以下のパラメータを調整して、理想の「変身」を見つけましょう。

Denoising Strength (0.3〜0.5): 数値が高いほどAIの創造性が強くなりますが、ポーズが崩れやすくなります。0.4あたりが「別人になりつつポーズは同じ」という絶妙なラインです。
Prompt: <lora:lcm-lora-sdv1-5:1> を忘れずに。これを入れないとLCMの効果が出ず、生成画像がノイズだらけになります。

4. 応用：VJパフォーマンスへの昇華

このシステムは、単なる自分撮り遊びではありません。OBS Studioなどの配信ソフトを使えば、「ウィンドウキャプチャ」で生成された画面を取り込み、TwitchやYouTube Liveで配信できます。

さらに、音楽に合わせてプロンプトを動的に切り替える（例えば、激しい曲調になったら cyberpunk, neon lights を追加するなど）仕組みを作れば、あなたは「自分の顔を楽器にする」VJになれるのです。

5. まとめ：デジタルな仮面を被る自由

リアルタイムAI生成は、私たちに新しい「仮面」を与えてくれます。それは隠れるための仮面ではなく、内なるクリエイティビティを表現するための仮面です。

今回紹介したコードは、その入り口に過ぎません。ControlNetを追加して指の動きまで完璧にトレースしたり、音声認識と組み合わせて口パクを合わせたり、可能性は無限大です。

さあ、コードを実行して。鏡の向こう側のあなたに会いに行きましょう。