【技術解説】Tencent HunyuanVideo：130億パラメータを誇るオープンソース動画生成AIの全貌と実装ガイド

オープンソース動画生成AIの新たな覇者、HunyuanVideoとは
技術深掘り：革新的な「Dual-stream to Single-stream」アーキテクチャ
1. 情報の干渉を防ぐデュアルストリーム
2. 高度な融合を行うシングルストリーム
HunyuanVideoのエコシステムと拡張機能
1. HunyuanVideo-Avatar
2. HunyuanCustom
【実践ガイド】HunyuanVideoをローカル環境で動かす
まとめ

オープンソース動画生成AIの新たな覇者、HunyuanVideoとは

2024年から2025年にかけて、動画生成AIの進化は目覚ましいものがありました。OpenAIのSoraやRunwayのGen-3 Alphaが業界を震撼させましたが、それらは依然としてクローズドな技術です。そんな中、Tencent AI Labが公開した「HunyuanVideo」は、オープンソースコミュニティにとってのゲームチェンジャーとなりました。

HunyuanVideoは、130億（13B）パラメータという、オープンソースとしては最大級の規模を誇る動画生成モデルです。その性能は、プロプライエタリなモデル（商用モデル）に匹敵、あるいは一部の指標で凌駕すると評価されています。開発者やクリエイターにとって、このレベルのモデルが手元で検証・カスタマイズ可能になったことは、革命と言っても過言ではありません。

技術深掘り：革新的な「Dual-stream to Single-stream」アーキテクチャ

HunyuanVideoの最大の特徴は、その独自のモデル設計にあります。従来の拡散トランスフォーマー（DiT）の課題を解決するために採用されたのが、「Dual-stream to Single-stream（デュアルストリームからシングルストリームへ）」というハイブリッド構造です。

情報の干渉を防ぐデュアルストリーム

動画生成において、テキスト（プロンプト）と映像（視覚情報）は全く異なる性質のデータです。これらを最初から混ぜ合わせると、お互いの学習を阻害してしまうことがあります。HunyuanVideoでは、初期段階でこれらを独立した「デュアルストリーム」として処理します。

テキストストリーム：ユーザーの指示を深く理解するための処理経路。
ビデオストリーム：映像の時空間的な整合性を保つための処理経路。

高度な融合を行うシングルストリーム

それぞれの情報が十分に処理された後、モデルは「シングルストリーム」へと移行し、情報を融合させます。この段階的なアプローチにより、テキストの指示に忠実でありながら、破綻のない滑らかな動画生成が可能になりました。

HunyuanVideoのエコシステムと拡張機能

2025年に入り、HunyuanVideoは単なるベースモデルを超え、強力なエコシステムへと進化しました。特に注目すべき拡張機能を紹介します。

HunyuanVideo-Avatar

音声ファイルと1枚の人物画像から、極めて自然なリップシンク（口パク）と表情アニメーションを生成するモデルです。従来のモデルで見られた「不自然な首の動き」や「表情の硬さ」が大幅に改善されており、バーチャルヒューマンの開発において重要なツールとなっています。

HunyuanCustom

特定のキャラクターや画風を学習させるための軽量なカスタマイズフレームワークです。LoRA（Low-Rank Adaptation）のような仕組みを動画生成に特化させたもので、少ない計算リソースで独自のスタイルを持った動画モデルを作成できます。

【実践ガイド】HunyuanVideoをローカル環境で動かす

ここからは、実際にHunyuanVideoをあなたのPCで動かすための手順を解説します。13Bという巨大なモデルであるため、標準的な方法ではVRAM 60GB以上が必要となりますが、今回はComfyUIと量子化（FP8）技術を活用し、コンシューマー向けGPU（RTX 4090 24GB推奨）で動作させる現実的なアプローチを紹介します。

1. 前提条件と環境構築

まず、以下のツールがインストールされていることを確認してください。

OS: Windows 10/11 (WSL2推奨) または Linux
GPU: NVIDIA RTX 3090/4090 (VRAM 24GB) 以上推奨
※VRAMが少ない場合は、HunyuanVideo-1.5 (8.3Bモデル) の利用や、大幅なオフロード設定が必要です。
Python: 3.10以上
Git: 最新版

2. ComfyUIのセットアップ

最も手軽かつ拡張性が高いのが、ノードベースのUIツール「ComfyUI」を使用する方法です。

# ComfyUIのクローン
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

# 仮想環境の作成と依存関係のインストール
python -m venv venv
source venv/bin/activate  # Windowsの場合は venv\Scripts\activate
pip install -r requirements.txt

# ComfyUI Managerのインストール（推奨）
cd custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git

3. モデルウェイトの配置

Hugging Faceなどのリポジトリから、以下のファイルをダウンロードし、指定のフォルダに配置します。VRAM節約のため、FP8版の使用を強く推奨します。

メインモデル (UNet/Transformer): hunyuan_video_t2v_720p_bf16.safetensors (またはfp8版)
配置先: ComfyUI/models/diffusion_models/
VAE: hunyuan_video_vae_bf16.safetensors
配置先: ComfyUI/models/vae/
テキストエンコーダー: clip_l.safetensors および llava_llama3_fp8_scaled.safetensors
配置先: ComfyUI/models/text_encoders/

4. ワークフローの構築と生成

ComfyUIを起動（python main.py）し、ブラウザでアクセスします。HunyuanVideo専用のワークフロー（JSONファイル）を読み込むか、手動でノードを組みます。

推奨プロンプト例（映画のようなシーン）:

Running command:
"Cinematic shot, 8k resolution. A cyberpunk detective standing in rain-slicked neon streets of Tokyo at night, holding a glowing blue hologram device. The camera slowly zooms in on his determined face. Reflections of neon signs on the wet asphalt. High contrast, moody lighting, volumetric fog."

生成のコツ: