WanVideo

Last-modified: 2025-12-19 (金) 14:31:16

Wan Videoの概要

個人用のPCで動作する、オープンソースの動画生成AIです。
この項目で解説するのは、画像を入力してその続きをAIが動画化する方式(image-to-video, I2V型)です。

バージョン1シリーズがリリースされたときから個人用PCでも動作可能でしたが、品質を上げる工夫が必要でした。
2025/8現在は2.2となり大幅にアプデされ、(いままでのよりは)高速で、ある程度適当でも高品質な動画生成が可能となりました。
無料です

WanはWanXiangの省略形。中国国内では通义万相(通義万相、トンイーワンシャン)と呼ばれています。
通義万相は「森羅万象を理解し描き出す」という意味。
同じくAlibabaが開発しているQwen(通義千問)の姉妹ブランドです。Qwenが千でWanが万。
QwenはLLMを中心とするシリーズですが、Wanはまだ勝利者の固まっていない動画生成を前面に押し出して差別化を図っているようです。
住み分けは複雑なようで、Wanもtxt2imgできたりと色々機能が被っています。

導入スペック目安

  • Windows11以上
  • メインメモリ32GB以上(32GBでも十分だが、動画系はできたら64GBあると嬉しいかも)
  • VRAMが8GB以上のグラボ。RTX3060でも動作確認済み。
  • SSD(HDD)の容量40GBほど(EasyWan22は2025年9月時点で容量100GBを超えている。空き容量に気を付けよう)

なんと画像生成AIの方が必要スペックが高いので、画像生成AIが出来るPCなら問題なく動画を生成することができる。
上記よりもスペックが低めのPCでも生成は可能(メインメモリ16GB、VRAM6GBのゲーミングノートPC等で動作確認済み)。

※i2vの生成AIは描き変える自由度が少ない(生成フレームのほとんどの部分が前フレームと変わらない)ので、動画処理というイメージに反しモデルの負担はそこまで高くない。

導入方法(EasyWan22)

ここではWan2.2を簡単に導入できるオールインワンパッケージEasyWan22の導入を解説します。
1項目ごとに落ち着いて実行していくことをお勧めします。

①Cドライブ直下ぐらいのところにフォルダをつくる。名前は何でも良いが「easywan22」としておきましょう。

②下記のページにアクセス
https://github.com/Zuntan03/EasyWan22

③「EasyWan22Installer.bat」と書かれている場所を右クリックして、①で作ったフォルダに「名前を付けて保存」する。

④保存したEasyWan22Installer.batを実行。ターミナル画面(黒背景に白文字の画面、以降頻繁に出てきます)が起動する。
確認事項が表示されるので、同意できるならそのままEnterを押す。
少し待つと「このアプリがデバイスに変更を加えることを許可しますか?」と表示されるので「はい」を押す。

なお、ターミナル画面では『Civitai』のAPIキーの入力も求められる。
サイトでアカウントにログイン ⇒ 右上のアイコンをクリック ⇒ 「Account settings」 ⇒ 「Add API key」 ⇒ 「easywan」など好きな名前を付けて保存 ⇒ 表示されるAPIキーをコピー ⇒ ターミナル画面で貼り付け

⑤各種ダウンロードが始まるのでしばらく待つ。
30GB以上ダウンロードするのでそれなりに時間がかかります。早い人ならおおよそ1時間以内ぐらい。アニメ2話分ぐらい見て待とう。
全てのダウンロードが完了するとターミナル画面は消える。
以上で導入完了

初回起動方法

①「導入方法」で作った「easywan22」のフォルダを開く。

②「Update.bat」をダブルクリックで実行。
ターミナルが起動して自動的に更新される。終了するとターミナル画面は消えます。
※初回以降は上記のページの更新内容を見て、必要に応じて実行します。
(2025/08/24以降の更新でUIやワークフローが大きく見直され使いやすくなったので、この日より前のバージョンの場合は更新がおすすめ)

③「ComfyUi.bat」をダブルクリックしてしばらく待つと起動する。2回目以降の起動もコレです。
初回は初回設定が入るため少しだけ時間がかかる場合があります。

④起動するとブラウザにComfyUI(四角いボックスがいくつも線で繋がれている画面)が表示されるのと同時に、
「以下の機能が不足しています」的なメッセージ(表記が違う場合がある)と何が不足してるかが表示されるので、
不足分を全てチェックつけてインストールを行う。
10分ぐらい待つとインストールが終わり、「UIを再起動してください」と再起動ボタンが表示されるので再起動する。

⑤再起動完了後に使い始めることができます。
「再接続エラー」みたいな表記が出ていた場合は、一度ブラウザとターミナルの両方を閉じて、
再度「ComfyUI.bat」を実行してください。

動画生成・保存形式

下記のページも参照。
https://github.com/Zuntan03/EasyWan22/wiki

①起動時にあらかじめテスト生成できる環境が用意されています。
左のバーの「ワークフロー」をクリックし、「Easy」→「00-I2v_ImageToVideo.json」の順に選択してワークフローを開きます。
「99_WIP_Kijai_LowSpec.json」などもありますが、基本的に最新の更新状態が反映される上記のもので大丈夫です(以下の文章もそちら準拠)。
下部の「▶実行する」をクリックしてください。エラーが出たらもう一度クリック。
5分~10分程で、「金髪でヘアバンドをした女の子の画像が踊っている動画」が生成されます。

②あとは動かしてみたい画像に変えて生成してみましょう。
「ImageInput, 画像入力」の箱で、「StartImage, 開始画像を設定」内の「アップロードするファイルを選択」をクリックして画像を選びます。
また、「VideoOutput, 動画出力」の箱で、「Seconds, 動画秒数」のスライダーを動かして秒数を変更できます(5秒推奨)。
Prompt, プロンプト」の箱で、「PositiveInput」には英語、隣の「TranslateInput」には日本語のプロンプトを入れます。
どちらかは空欄でOKです。生成を実行すると、日本語の場合は自動翻訳された英語が下の「FinalPositivePrompt」に表示されます。
人によってはこれだけの設定で十分かもしれません。慣れてきたらいろいろカスタマイズしてみましょう。
NSFW描写を強化したい時は「Preset, プリセット」の箱で、多数用意されているNSFW関係のLoRAを必要に応じて有効にすると効果があります。

③生成された動画はPCの「Output」フォルダに入っています。
また、「Save, 保存」の箱で、以下の3つの形式を保存するか「yes」「no」をクリックすることで切り替えることができます。
「Enable SaveEndFrame」は最終フレームの画像をwebpファイルとして保存します。それを使って動画の続きをつくることも可能です。
「Enable SaveWebp」は動画をwebpファイルとして保存します。ブラウザにドラッグ&ドロップ等すると再生されます。
「Enable SaveMp4」は動画をmp4ファイルとして保存します。合わせてサムネイルもpngファイルとして保存されます。
他のフレームが必要な時は、Windowsの『フォト』やフリーソフトなどで動画を開きフレームの保存をしましょう。
ちなみに、どの設定でも「Generated」という名前で動画のwebpファイルが予備用に保存されます。「Enable SaveWebp」の方は「Asset」という名前で、こちらは素材用です。

 

手動でComfyUIに導入する

※上記のEasyWan22を導入済みの場合は、以下の手順は不要です
以下は既存のComfyUI環境に追加したい、もしくは何らかの事情(グラボがNVIDIA製でない等)でEasyWan22をインストールできない人向けです。

ComfyUIが未導入なら導入する。

②既存のComfyUIがある場合は、バージョンを最新にする。
ComfyUIがあるフォルダでコマンドプロンプトを開いて

git pull

③各種ファイルをダウンロードする。
参考:https://comfyanonymous.github.io/ComfyUI_examples/wan22/

あとは公式のワークフローなどを参考に生成しましょう。

簡単な説明

ComfyUIの画面左下 [Workflow] → [Browse Templates] から、各種ワークフローのテンプレートを開くことができます。ここでは、その中の [VIDEO] → [Wan2.2 14B Image to Video] を例に説明します(25/08/13時点)。

  • ただし、これらは WAN2.2 の標準モデルを利用しており処理が重めです。
    • 「量子化モデル(GGUF形式)の利用」および「高速化LoRA(ステップ数を減らす)の利用」により軽量化できます(後述)
    • なおWan2.2-Lightning(公式)などの高速化手法も登場しているようなので、以下は基本的な構造の説明だとご理解ください
    • EasyWANのワークフローで行われる処理も、基本的にはこの説明と同じです。高速化処理が適用済の上、様々な機能が備わっています(ノードも異なるものが用いられています。)。

標準ワークフロー [Wan2.2 14B Image to Video]

i2v_all.jpg

ワークフローを開いたとき、必要なモデルやカスタムノードがない場合はダウンロード確認のダイアログが出ますが、×ボタンで閉じてください(必要であればダウンロードしてください)。

Step1 - Load models

WAN2.2の各種モデルファイルを読み込む処理です。指定フォルダに事前にモデルファイルを置いておきます。

【Load Diffusion Model】

  • WAN2.2のモデルファイルを読み込みます。t2v(プロンプトのみから生成)とi2v(画像を指定して生成)により別のモデルファイルが提供されています。
  • なおファイル名の14Bは14billionパラメータ(約140億のパラメータ規模)を持つモデルであることを示します。
  • WAN2.2は動画生成時、2段階のモデルを使い分けます。
    • High noise モデル:前半の粗い形や動きの大枠づくり
    • Low noise モデル:後半の細部や色の整合性の仕上げ
  • 標準モデル(.safetensors)は重いため、量子化版(GGUF)に差し替えるなどにより軽量化できます。

【Load CLIP】

【Load VAE】

  • VAEのモデルファイルを読み込みます。
    • VAEは(ざっくり言えば)潜在表現(Latent)を画像に変換(デコード)したり、逆に画像を潜在表現に変換(エンコード)したりするものです。
    • 14Bモデルの場合はWan2.1用のVAE(wan_2.1_vae)を利用するのが標準のようです。

Step2 - Upload start_image

i2vの開始画像を指定します。

  • 最終フレーム画像も指定したい場合は [Wan2.2 14B First-Last Frame to Video]テンプレートを参照。

Step3 - Video size & length

開始フレーム画像から潜在表現(Latent)を生成する処理です。

  • 画像サイズの入力と初期画像のサイズと異なる場合は自動的にサイズが変更されるようです
  • lengthは生成フレーム数です。81,101,121がよく使われるようです。121フレームにすると、開始画像に戻るようなループ性が出ることがあります。
  • batch size は同時生成本数ですが、テンプレのノード構成だと何を指定しても1本しか生成されないようです。

Step4 - Prompt

ポジティブ/ネガティブプロンプトを指定します。

  • プロンプトはChatGPTやCopilotなどの文章生成AIを利用して作ってもらうと効率的です

ModelSampling SD3

各ステップでの作業量を補正して生成を安定させるためのノードです。
解説はこちら → モデルサンプリング調整

高速化LoRAを使う場合はこれより前にLoad Lora(ModelOnly)ノードを差し込みます。

Ksampler

動画生成の主処理です。上のKSamplerがHigh noise処理、下のKSamplerがLow noise処理です。

  • stepsは両方の合計ステップ数です。
  • start_at_stepとend_at_stepでそれぞれのステップ数の範囲を決めます。Low noiseのend_at_stepは10000となっていますが、これは上限値で、実際の処理はstepsで指定した回数のみ行われます。
    • 高速化LoRAを適用すると、stepsを4~8程度まで減らすことができます。

事後処理

Ksamplerにより生成された潜在表現を動画に変換し、ファイルとして保存します。

  • 標準ノードは機能がシンプルであるため、「Video Helper Suite」や「Frame-Interpolation」(フレーム補完)などのカスタムノードを利用すると良いでしょう。
  • WAN2.2の14Bモデルは16fps固定です。フレームレートを変更したい場合は上記のようなノードを使うか、DaVinci Resolve等の動画編集ソフトを使うことになります。

量子化モデルと高速化LoRA

ノード構成例
light.jpg

いずれのファイルもt2v,i2v用が提供されています。

量子化モデル

量子化モデルは、標準モデルを量子化して軽量化したもので、VRAM使用量と処理時間を減らせます。[Unet Loader (GGUF)]ノードで読み込みます。いくつかの種類が提供されています。Q4_K_Sがよく利用されているようです。

  • Q3 … 3ビット量子化、軽いが画質低下すると言われています
  • Q4 … 4ビット量子化、軽さと画質のバランスが良いと言われています(推奨)
  • Q5 … 5ビット量子化、画質は良いが処理が重くなる
  • K … K-Quant方式(グループ単位の量子化)
  • S/M … Small(小規模)/ Medium(中規模)(ビルドの違い)

量子化モデルの配布場所
【T2V】https://huggingface.co/QuantStack/Wan2.2-T2V-A14B-GGUF/tree/main
【I2V】https://huggingface.co/QuantStack/Wan2.2-I2V-A14B-GGUF/tree/main

高速化LoRA

高速化LoRAは、少ないステップ数で似た品質を出せるようにした追加学習データです。[LoraLoaderModelOnly]ノードで読み込みます。

  • stepsを4~8程度に減らしても動作するため、生成速度が大幅に向上します。
  • strength_modelはLoRAの適用強度です。
  • High_noiseの強度を上げるとゴーストを解決できるかもしれません
  • Low_noiseの強度を上げると手や顔のノイズを解決できるかもしれません
  • https://huggingface.co/Kijai/WanVideo_comfy/tree/main/Lightx2vなどWAN2.1のものでも利用できます。

TIPS

口パクを止める

WAN2.2のクセなのか、何も指示していないのにやたらパクパクと口を動かしてくれる。
下記のプロンプトで止まる。

The woman keeps her mouth closed.

開けっぱなしにしたいときは末尾「closed」を「opened」に書き換えれば良い。

効かないときもあるので多少のガチャは必要。

なお、現代のLLMは肯定系と否定形の区別を付けるのが苦手なので、確実に止めようとして「she says nothing」等と重ねるのは悪手。
LLMの中身はいわゆる「中国語の部屋」なので、「なんだかよく分からないけど『say』とか『speak』とか書いてあるから喋らせた方がいいんだろう」と解釈される可能性大。


*1 CLIPは本来固有名詞(OpenAIの製品)で、テキストエンコーダのあくまで一種です。Text Encoderでは帯に長くTEだとたすきに短いせいか、ComfyUIでは一緒くたにclipと表記されていますが……。