WanVideo

Wan Videoの概要

個人用のPCで動作する、オープンソースの動画生成AIです。
この項目で解説するのは、画像を入力してその続きをAIが動画化する方式（image-to-video, I2V型）です。

バージョン1シリーズがリリースされたときから個人用PCでも動作可能でしたが、品質を上げる工夫が必要でした。
2025/8現在は2.2となり大幅にアプデされ、（いままでのよりは）高速で、ある程度適当でも高品質な動画生成が可能となりました。
特に、WAN2.2では潜在の圧縮度が下がっているので生成の安定性が増しています（SD1.5が破綻しやすかったのも潜在の圧縮度が大きな原因でした）。
無料です

WanはWanXiangの省略形。中国国内では通义万相（通義万相、トンイーワンシャン）と呼ばれています。
通義万相は「森羅万象を理解し描き出す」という意味。
同じくAlibabaが開発しているQwen（通義千問）の姉妹ブランドです。Qwenが千でWanが万。
QwenはLLMを中心とするシリーズですが、Wanはまだ勝利者の固まっていない動画生成を前面に押し出して差別化を図っているようです。
住み分けは複雑なようで、Wanもtxt2imgできたりと色々機能が被っています。

導入スペック目安

Windows11以上
メインメモリ32GB以上（32GBでも十分だが、動画系はできたら64GBあると嬉しいかも）
VRAMが8GB以上のグラボ。RTX3060でも動作確認済み。
SSD（HDD）の容量40GBほど(EasyWan22は2025年9月時点で容量100GBを超えている。空き容量に気を付けよう)

なんと画像生成AIの方が必要スペックが高いので、画像生成AIが出来るPCなら問題なく動画を生成することができる。
上記よりもスペックが低めのPCでも生成は可能（メインメモリ16GB、VRAM6GBのゲーミングノートPC等で動作確認済み）。

ただし、生成可能な尺の長さはVRAM容量に依存する。
とはいえ現在の動画生成AIは尺の長さに比例して破綻しやすくなるので、
ハイスペックマシンを用意してもそれに見合った結果が出るとは限らない。

※
i2vの生成AIは描き変える自由度が少ない（生成フレームのほとんどの部分が前フレームと変わらない）ので、
1フレーム毎の生成自体については動画処理というイメージに反しモデルの負担はそこまで高くない。
しかし、尺の長さによって時間軸方向での一貫性を保つためのコストが発生する。

MoE（Mixture of Experts）について

ある程度明るい方向けに補記しておくと　WAN2.2はMoEを採用しているといっていますが
（WAN2.2では）高ノイズモデルと低ノイズモデルに分けてあるだけです*1。
つまり14BモデルはLLMでいうと27B-A14B相当です。
14Bより軽くなるわけではありませんのでご注意。

導入・使用方法（EasyWan22）

EasyWan22は2025年9月を最後に機能追加が停止されています。
ComfyUIのバージョンも初期状態ではv0.3.55に固定されていて最新バージョンよりメモリ管理性能が劣ります。
（もっともEasyWan22が採用しているWanVideoWrapperでは最新のComfyUIの優れたメモリ管理の恩恵が受けられませんが。）
ComfyUIやAI生成の初心者がAI動画生成がどのようなものなのかを知る第一歩としてはEasyWan22が簡単でよいかもしれませんが、最新のモデルや技術を使いたいなら早めにEasyWan22を卒業するか、自信がある人は最初からComfyUIの標準テンプレートのWan2.2ワークフローから使い始めた方がよいでしょう。

事前準備

ここではWan2.2を簡単に導入できるオールインワンパッケージEasyWan22の導入を解説します。
1項目ごとに落ち着いて実行していくことをお勧めします。

①Cドライブ直下ぐらいのところにフォルダをつくる。名前は何でも良いが「easywan22」としておきましょう。

②下記のページにアクセス
https://github.com/Zuntan03/EasyWan22

③「EasyWan22Installer.bat」と書かれている場所を右クリックして、①で作ったフォルダに「名前を付けて保存」する。

④保存したEasyWan22Installer.batを実行。ターミナル画面（黒背景に白文字の画面、以降頻繁に出てきます）が起動する。
確認事項が表示されるので、同意できるならそのままEnterを押す。
少し待つと「このアプリがデバイスに変更を加えることを許可しますか？」と表示されるので「はい」を押す。

なお、ターミナル画面では『Civitai』のAPIキーの入力も求められる。
サイトでアカウントにログイン　⇒　右上のアイコンをクリック　⇒　「Account settings」　⇒　「Add API key」　⇒　「easywan」など好きな名前を付けて保存　⇒　表示されるAPIキーをコピー　⇒　ターミナル画面で貼り付け

⑤各種ダウンロードが始まるのでしばらく待つ。
30GB以上ダウンロードするのでそれなりに時間がかかります。早い人ならおおよそ1時間以内ぐらい。アニメ2話分ぐらい見て待とう。
全てのダウンロードが完了するとターミナル画面は消える。
以上で導入完了。

初回起動

①上記で作った「easywan22」のフォルダを開く。

②「Update.bat」をダブルクリックで実行。
ターミナルが起動して自動的に更新される。終了するとターミナル画面は消えます。
※初回以降は上記のページの更新内容を見て、必要に応じて実行します。
（2025/08/24以降の更新でUIやワークフローが大きく見直され使いやすくなったので、この日より前のバージョンの場合は更新がおすすめ）

③「ComfyUi.bat」をダブルクリックしてしばらく待つと起動する。2回目以降の起動もコレです。
初回は初回設定が入るため少しだけ時間がかかる場合があります。

④起動するとブラウザにComfyUI（四角いボックスがいくつも線で繋がれている画面）が表示されるのと同時に、
「以下の機能が不足しています」的なメッセージ（表記が違う場合がある）と何が不足してるかが表示されるので、
不足分を全てチェックつけてインストールを行う。
10分ぐらい待つとインストールが終わり、「UIを再起動してください」と再起動ボタンが表示されるので再起動する。

⑤再起動完了後に使い始めることができます。
「再接続エラー」みたいな表記が出ていた場合は、一度ブラウザとターミナルの両方を閉じて、
再度「ComfyUI.bat」を実行してください。

動画生成

詳細は下記EasyWan22の公式Github Wikiも参照。
https://github.com/Zuntan03/EasyWan22/wiki
※ コメント欄や掲示板で質問する前にまずは公式Wikiを読みましょう。
※ ただし公式Wikiの説明も設定項目の名称などが実際のワークフローと合っていないことがあります。その場合はワークフローを解析したり近い名称を探すなどしてください。

以下の操作を行う際、ブラウザによっては何度もクリックしたり、Tabキーで項目を移動したりしないとなかなか反応しない現象が発生するようです。
その場合は、違うブラウザでアドレスバーにURLを入れたりして起動してみましょう。

①起動時にあらかじめテスト生成できる環境が用意されています。
左のバーの「ワークフロー」をクリックし、「Easy」→「00-I2v_ImageToVideo.json」の順に選択してワークフローを開きます。
Deprecated（廃止、非推奨）フォルダ内に「99_WIP_Kijai_LowSpec.json」等もありますが、基本的に最新の更新状態が反映される上記のもので大丈夫です（以下の文章もそちら準拠）。
下部の「▶実行する」をクリックしてください。エラーが出たらもう一度クリック。
5～10分程で、「金髪でヘアバンドをした女の子の画像が踊っている動画」が生成されます。

②あとは動かしてみたい画像に変えて生成してみましょう。
「ImageInput, 画像入力」の箱で、「StartImage, 開始画像を設定」内の「アップロードするファイルを選択」をクリックして画像を選びます。
また、「VideoOutput, 動画出力」の箱で、「Seconds, 動画秒数」のスライダーを動かして秒数を1～10秒の間で変更できます（5秒推奨）。
「Prompt, プロンプト」の箱で、「PositiveInput」には英語、隣の「TranslateInput」には日本語のプロンプトを入れます。
どちらかは空欄でOKです。生成を実行すると、日本語の場合は自動翻訳された英語が下の「FinalPositivePrompt」に表示されます。
人によってはこれだけの設定で十分かもしれません。慣れてきたらいろいろカスタマイズしてみましょう。

③特定の描写を強化したい時はLoRAを使用すると効果があります。
「Preset, プリセット」の箱に多数用意されています（ほぼNSFW関係）。必要に応じて各LoRAを有効にしたり、強さを調整したりします。
なお、プリセットのLoRAには顔が変わりやすいなど、クセが強いものも多いのでけっこう工夫が要ります。
Civitai等でダウンロードしたLoRAを使用したい場合は、「Model, モデル」の箱の「ModelLoader」にLoRAをセットします。「High」と「Low」2つある場合は、基本的にどちらもセットした方がよいです。
また、LoRAは事前にPCの「Model」→「loras」フォルダに入れておきます。その中に区別用のフォルダもつくると分かりやすいです。
プロンプトはCivitaiのLoRAのページにあるサンプル画像などから持ってくると効果的です。

保存形式

生成された動画はPCの「Output」フォルダに入っています。
また、「Save, 保存」の箱で、以下の3つの形式を保存するか「yes」「no」をクリックすることで切り替えることができます。

「Enable SaveEndFrame」は最終フレームの画像をwebpファイルとして保存します。それを使って動画の続きをつくることも可能です。
「Enable SaveWebp」は動画をwebpファイルとして保存します。ブラウザにドラッグ＆ドロップ等すると再生されます。
「Enable SaveMp4」は動画をmp4ファイルとして保存します。合わせてサムネイルもpngファイルとして保存されます。名前はどちらも「Share」です。
他のフレームが必要な時は、例としてwebpは『GIMP』等のフリーソフト、mp4はWindowsの『フォト』で動画を開いてフレームの保存をしましょう。

その他、どの設定でも「Generated」という名前で動画のwebpファイルが予備用に保存されます。「Enable SaveWebp」の方は「Asset」という名前で、こちらは素材用です。
なお、上記の各webpとサムネイルpngをWindowsの『メモ帳』で開くとプロンプト等のメタデータが見れます（pngはStable Diffusionの「PNG Info」にドロップ等でも可能）。

手動でComfyUIに導入する

※上記のEasyWan22を導入済みの場合は、以下の手順は不要です
以下は既存のComfyUI環境に追加したい、もしくは何らかの事情(グラボがNVIDIA製でない等)でEasyWan22をインストールできない人向けです。

①ComfyUIが未導入なら導入する。

②既存のComfyUIがある場合は、バージョンを最新にする。
ComfyUIがあるフォルダでコマンドプロンプトを開いて

git pull

③各種ファイルをダウンロードする。
参考：https://comfyanonymous.github.io/ComfyUI_examples/wan22/

モデル
models\diffusion_models に置く
https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

Text Encoder
https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/text_encoders

VAE
14Bモデルの場合：https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors
5Bモデルの場合：https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/vae/wan2.2_vae.safetensors

あとは公式のワークフローなどを参考に生成しましょう。

簡単な説明

ComfyUIの画面左下 [Workflow] → [Browse Templates] から、各種ワークフローのテンプレートを開くことができます。ここでは、その中の [VIDEO] → [Wan2.2 14B Image to Video] を例に説明します（25/08/13時点）。

ただし、これらは WAN2.2 の標準モデルを利用しており処理が重めです。
- 「量子化モデル（GGUF形式）の利用」および「高速化LoRA（ステップ数を減らす）の利用」により軽量化できます（後述）
- なおWan2.2-Lightning（公式）などの高速化手法も登場しているようなので、以下は基本的な構造の説明だとご理解ください
- EasyWan22のワークフローで行われる処理も、基本的にはこの説明と同じです。高速化処理が適用済の上、様々な機能が備わっています（ノードも異なるものが用いられています。）。

標準ワークフロー [Wan2.2 14B Image to Video]

ワークフローを開いたとき、必要なモデルやカスタムノードがない場合はダウンロード確認のダイアログが出ますが、×ボタンで閉じてください（必要であればダウンロードしてください）。

Step1 - Load models

WAN2.2の各種モデルファイルを読み込む処理です。指定フォルダに事前にモデルファイルを置いておきます。

【Load Diffusion Model】

WAN2.2のモデルファイルを読み込みます。t2v（プロンプトのみから生成）とi2v（画像を指定して生成）により別のモデルファイルが提供されています。
なおファイル名の14Bは14billionパラメータ（約140億のパラメータ規模）を持つモデルであることを示します。
WAN2.2は動画生成時、2段階のモデルを使い分けます。
- High noise モデル：前半の粗い形や動きの大枠づくり
- Low noise モデル：後半の細部や色の整合性の仕上げ
標準モデル（.safetensors）は重いため、量子化版（GGUF）に差し替えるなどにより軽量化できます。

【Load CLIP】

テキストエンコーダ~~（CLIP）~~*2のモデルファイル（UMT5）を読み込みます。
- テキストエンコーダはプロンプトを解釈するものです。Stable Diffusion系のモデルでは画像生成モデル本体と同じファイルに内蔵されています。

【Load VAE】

VAEのモデルファイルを読み込みます。
- VAEは（ざっくり言えば）潜在表現（Latent）を画像に変換（デコード）したり、逆に画像を潜在表現に変換（エンコード）したりするものです。
- 14Bモデルの場合はWan2.1用のVAE（wan_2.1_vae）を利用するのが標準のようです。

Step2 - Upload start_image

i2vの開始画像を指定します。

最終フレーム画像も指定したい場合は [Wan2.2 14B First-Last Frame to Video]テンプレートを参照。

Step3 - Video size & length

開始フレーム画像から潜在表現（Latent）を生成する処理です。

画像サイズの入力と初期画像のサイズと異なる場合は自動的にサイズが変更されるようです
lengthは生成フレーム数です。81,101,121がよく使われるようです。121フレームにすると、開始画像に戻るようなループ性が出ることがあります。
batch size は同時生成本数ですが、テンプレのノード構成だと何を指定しても1本しか生成されないようです。

Step4 - Prompt

ポジティブ/ネガティブプロンプトを指定します。

プロンプトはChatGPTやCopilotなどの文章生成AIを利用して作ってもらうと効率的です
- 「次の内容の動画プロンプトを作って」など

ModelSampling SD3

各ステップでの作業量を補正して生成を安定させるためのノードです。
解説はこちら → モデルサンプリング調整

高速化LoRAを使う場合はこれより前にLoad Lora（ModelOnly）ノードを差し込みます。

Ksampler

動画生成の主処理です。上のKSamplerがHigh noise処理、下のKSamplerがLow noise処理です。

stepsは両方の合計ステップ数です。
start_at_stepとend_at_stepでそれぞれのステップ数の範囲を決めます。Low noiseのend_at_stepは10000となっていますが、これは上限値で、実際の処理はstepsで指定した回数のみ行われます。
- 高速化LoRAを適用すると、stepsを4～8程度まで減らすことができます。

事後処理

Ksamplerにより生成された潜在表現を動画に変換し、ファイルとして保存します。

標準ノードは機能がシンプルであるため、「Video Helper Suite」や「Frame-Interpolation」（フレーム補完）などのカスタムノードを利用すると良いでしょう。
WAN2.2の14Bモデルは16fps固定です。フレームレートを変更したい場合は上記のようなノードを使うか、DaVinci Resolve等の動画編集ソフトを使うことになります。

量子化モデルと高速化LoRA

ノード構成例

いずれのファイルもt2v,i2v用が提供されています。

量子化モデル

量子化モデルは、標準モデルを量子化して軽量化したもので、VRAM使用量と処理時間を減らせます。[Unet Loader (GGUF)]ノードで読み込みます。いくつかの種類が提供されています。Q4_K_Sがよく利用されているようです。

Q3 … 3ビット量子化、軽いが画質低下すると言われています
Q4 … 4ビット量子化、軽さと画質のバランスが良いと言われています（推奨）
Q5 … 5ビット量子化、画質は良いが処理が重くなる
K … K-Quant方式（グループ単位の量子化）
S/M … Small（小規模）/ Medium（中規模）（ビルドの違い）

量子化モデルの配布場所
【T2V】https://huggingface.co/QuantStack/Wan2.2-T2V-A14B-GGUF/tree/main
【I2V】https://huggingface.co/QuantStack/Wan2.2-I2V-A14B-GGUF/tree/main

高速化LoRA

高速化LoRAは、少ないステップ数で似た品質を出せるようにした追加学習データです。[LoraLoaderModelOnly]ノードで読み込みます。

stepsを4～8程度に減らしても動作するため、生成速度が大幅に向上します。
strength_modelはLoRAの適用強度です。
High_noiseの強度を上げるとゴーストを解決できるかもしれません
Low_noiseの強度を上げると手や顔のノイズを解決できるかもしれません
https://huggingface.co/Kijai/WanVideo_comfy/tree/main/Lightx2vなどWAN2.1のものでも利用できます。

Wan2.2 FLF2V

開始フレームと終了フレームを指定することで、その間の動画を生成することができる機能です。

Wan2.2 SVI 2.0 (Pro)

60秒以上の長尺の動画が作成できる機能です。

TIPS

口パクを止める

WAN2.2のクセなのか、何も指示していないのにやたらパクパクと口を動かしてくれる。
下記のプロンプトで止まる。

The woman keeps her mouth closed.

開けっぱなしにしたいときは末尾「closed」を「opened」に書き換えれば良い。

効かないときもあるので多少のガチャは必要。

なお、現代のLLMは肯定系と否定形の区別を付けるのが苦手なので、確実に止めようとして「she says nothing」等と重ねるのは悪手。
LLMの中身はいわゆる「中国語の部屋」なので、「なんだかよく分からないけど『say』とか『speak』とか書いてあるから喋らせた方がいいんだろう」と解釈される可能性大。

Wan2.2-Lightning I2V LoRAの使用について

Wan2.2-Lightning I2V LoRAを使用すると「lora key not loaded:～cross_attn.k_img.diff_b」等の連続したエラーメッセージが表示される事があるが、特に問題はない模様。

[下記より引用]2.2 I2V モデルではイメージの cross_attn レイヤーが削除されたため、2.1 I2V を使用するときにキー不一致エラーが発生するのは正常ですが、残りのキーでは引き続き機能し、それらのレイヤーはそもそもそれほど重要ではありませんでした。
https://github.com/kijai/ComfyUI-WanVideoWrapper/issues/909

Wan Videoの概要

導入スペック目安

MoE（Mixture of Experts）について

導入・使用方法（EasyWan22）

事前準備

初回起動

動画生成

保存形式

手動でComfyUIに導入する

簡単な説明

標準ワークフロー [Wan2.2 14B Image to Video]

Step1 - Load models

Step2 - Upload start_image

Step3 - Video size & length

Step4 - Prompt

ModelSampling SD3

Ksampler

事後処理

量子化モデルと高速化LoRA

量子化モデル

高速化LoRA

Wan2.2 FLF2V

Wan2.2 SVI 2.0 (Pro)

TIPS

口パクを止める

Wan2.2-Lightning I2V LoRAの使用について

はじめての方へ

不具合・エラー情報

スレの主な出来事

生成ツール

無料デモ・Webサービス

ローカル

モデル

画像生成モデル

動画生成モデル

その他

AUTOMATIC1111 SD Web UI

導入

ローカル版

Colab版

Paperspace版

使い方

初期設定

使い方（基本）

使い方（上級）

学習全般

学習データの種類

LoRA学習

事前準備

学習方法

学習のコツ

応用

学習させたLoRAの使い方

アイデア・メモ

Wiki編集者向け

外部リンク

カウンター