動画生成 FramePack
1枚の画像から1秒~120秒の動画を作成できるローカルAI環境です。
作者は画像生成AI系ではお馴染みのlllyasviel氏。
ビデオメモリ6GBで安定動作する。これまではWebサービス系が主流でしたが、とうとうローカル環境でも動画が現実的となりました。
細かく動かすのが得意。画面全体が動くものは苦手。
動画生成における誤差蓄積を抑制する研究の一環として公開されているので、「比較的」長尺に強いです。
モデル構成としては中国テンセント製の動画生成モデルHunyuanVideo(13B)をベースに
FLUX.1 Redux(バリエーション生成用のi2iモデル)を
「画像エンコーダ」(つまりテキストエンコーダのように入力画像の特徴を取り出す装置)として用い、
動画生成モデル本体に対してlllyasviel氏らの研究に基づき大幅なカスタマイズを加えたものになっています*1。
導入に必要な環境
- VRAMが6GB以上のNVIDIA製グラフィックボード(要求を満たせばRTX2000番台でもいける模様)
- 64GB以上のメインメモリ(32GBや16GBでも仮想メモリを割り当てれば動作します)
- 約60GBのSSD/HDD容量(実ファイルは45GB程ですが余裕をもって)
※FramePackはVRAM(グラボのメモリ)よりもメインメモリの要求が高いことが特徴です。
メインメモリについて
いままでそこまで重要視されてこなかったメインメモリが重要になります。
恐らく16~32GBが主流だと思いますが、お財布と相談してこの機会に64GBに換装するのもアリでしょう。
DDR4タイプなら17,000円、DDR5なら22,000円程から購入できるので、グラボ買うよりはかなりお手軽です。
(相場は2025年4月現在)
生成できるもの
1秒~2分程の動画。
i2v(image to video)形式のため、元になる画像が必要になります。
入力した画像に対してプロンプトで動きをつけるといったかんじ。
なお、AI生成した画像も普通に使えるので自分で生成→FramePackで動きをつけるといった作業の流れが効率的。
NSFWな画像にも対応しているためえっちなのも入力次第。
生成時間の目安
RTX3060/12GB、メインメモリ64GB環境
512×768程の動画サイズ、動画時間3秒を生成するのにで約20分程です。
グラボのグレードが上がれば生成速度は上がる見込み。
動画時間が長くなったり動画サイズが大きくなれば生成速度は下がります。
メモリは必要以上を積んでも高速にならない模様。
2分動画の生成だと丸一日作業になってしまうかもしれません。
導入手順
①下記のサイトにアクセス
https://github.com/lllyasviel/FramePack
②「>>> Click Here to Download One-Click Package (CUDA〇〇 + Pytorch 〇〇) <<<」をクリックして
任意の場所にダウンロード
③ファイルを解凍したら「update.bat」を実行。
「続行するには何かキーを押してください . . .」という表示が出たら何か押してウィンドウを閉じる。
④run.batを実行。初回はモデルDLなどが入るため、1時間程はダウンロードがかかる。
何も動いてないようでもウィンドウは閉じてはいけない。終了するとブラウザが立ち上がり、生成画面が開く。
Colabでの導入手順(FramePack)
下記2ブロックのコードを入れてすべてのセル実行。
# FramePackのインストール !git clone https://github.com/lllyasviel/FramePack %cd FramePack !pip install -r requirements.txt
# FramePackの実行 !python demo_gradio.py --share
Colabでの導入手順(FramePack-eichi)
公式のセットアップガイドの「Google Colabセットアップ手順」を参照
使い方
①「Image」に動画の元になる画像を入れる。
(画像サイズはソフト側で調整してくれるので気にしなくて良い。アスペクト比も好きな比率で大丈夫。)
②「Prompt」にプロンプトを入力する。日本語は不可。Hunyuan Video形式準拠。
③「Total Video Lengs(Secconds)」に生成秒数を入れる。動作確認なら2秒ぐらいで良い。
④「Start Generation」を押して暫く待つ。
高速化
デフォルトでは導入してくれないxformers等を入れると若干早くなる。下記参照。
https://github.com/lllyasviel/FramePack/issues/138
F1(Forward=前方予測モデル)
アップデートでF1モデル版が追加。F1のFは"forward"で、FLUX.1とは直接的な関係はないようです。
https://github.com/lllyasviel/FramePack/discussions/459
- 元のバージョンよりも大胆な動きをつけられるようになった
- それ以前のバージョンでは最初に終端フレームを生成し、ケツから頭に向かって生成することで入力画像との乖離を抑制する双方向予測方式*2が特徴だったが、
F1では普通に頭からケツ(前方)に向かって生成されるようになった - 「a new anti-drifting regulation(誤差蓄積対策)」については、P1 の紹介ページから推測すると、過去フレームの影響を弱めて誤差が先のフレームへ伝わりにくくする仕組みのようです
P1(計画的生成による誤差蓄積対策モデル)
2025年6月に次期バージョンとして発表されたものの、2026年1月現在音沙汰がありません。
紹介ページ https://lllyasviel.github.io/frame_pack_gitpage/p1/
論文「Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models」arxiv
- Planned Anti-Drifting / 計画的な誤差蓄積対策
遠隔フレームを最初に生成し、逐次生成でなく中間に端点(endpoint)を飛び飛びに設定し先に生成することで、誤差が端点を超えて蓄積しないようにする仕組みのようです - History Discretization / 履歴離散化
履歴フレームを直で持つのではなく、LLMのようにいったんトークン化して持つことで、生成時と学習時とのギャップによって生じる誤差を防ぐ試みのようです
トラブルシューティング
- run.bat実行後、モデル読み込んでる途中で「続行するには何かキーを押してください . . .」と出て終了してしまう
→メインメモリ不足。メモリが増設できない場合はとりあえず仮想メモリを増やせば動きます。ストレージを消費する上に遅くなりますが。
(システム→バージョン情報→)システムの詳細設定→パフォーマンス→詳細設定→仮想メモリで、適当なドライブに60000MB(60GB)ほど割り当て(カスタムサイズで初期サイズと最大サイズ両方に60000を入力して設定ボタン押してOKボタン)てWindowsを再起動
- プロンプトが無視される
→入力画像とかけ離れている指示は無視されてしまう模様。少しずつ動かしていくのがコツ。派生版では自動でやってくれるものも。
派生改造版
- https://github.com/nirvash/FramePack
最終フレーム画像を指定できるようにしている - https://github.com/colinurbs/FramePack-Studio
セクションごとにプロンプトを変えられるようにしている。Hunyuan Video LoRA対応。 - https://github.com/git-ai-code/FramePack-eichi
セクションごとにプロンプトと画像を設定できる(複数の差分画像をなめらかアニメ化)ようにしている他、いろんな改造を詰め込んでいるもの。Hunyuan Video LoRA対応(LoRAを使う場合はメインメモリ64GB・ビデオメモリ16GB以上必要)
※2025年10月現在レポジトリごと消えています - https://github.com/pftq/FramePack_with_Video_Input
動画ソースに追加できるようにしている - https://github.com/red-polo/FramePackLoop
ループ特化(Windows専用) - https://github.com/d8ahazard/FramePack
Wan2.1モデル対応(Windows専用) - https://github.com/Hillobar/FramePack-director
動画編集機能付き - https://github.com/Aspena2022/FramePack-eichi-alpha
eichi v1.7.1ベースの改造版 機能を削ったシンプルなUI、低stepsとTeaCacheの敷居値変更で高速化