> FramePack

FramePack

Last-modified: 2026-01-04 (日) 13:15:00

動画生成 FramePack
導入に必要な環境
生成できるもの
生成時間の目安
導入手順
Colabでの導入手順(FramePack)
Colabでの導入手順(FramePack-eichi)
使い方
高速化
F1（Forward=前方予測モデル）
P1（計画的生成による誤差蓄積対策モデル）
トラブルシューティング
派生改造版

動画生成 FramePack

1枚の画像から1秒～120秒の動画を作成できるローカルAI環境です。
作者は画像生成AI系ではお馴染みのlllyasviel氏。
ビデオメモリ6GBで安定動作する。これまではWebサービス系が主流でしたが、とうとうローカル環境でも動画が現実的となりました。
細かく動かすのが得意。画面全体が動くものは苦手。
動画生成における誤差蓄積を抑制する研究の一環として公開されているので、「比較的」長尺に強いです。

モデル構成としては中国テンセント製の動画生成モデルHunyuanVideo（13B）をベースに
FLUX.1 Redux（バリエーション生成用のi2iモデル）を
「画像エンコーダ」（つまりテキストエンコーダのように入力画像の特徴を取り出す装置）として用い、
動画生成モデル本体に対してlllyasviel氏らの研究に基づき大幅なカスタマイズを加えたものになっています*1。

導入に必要な環境

VRAMが6GB以上のNVIDIA製グラフィックボード（要求を満たせばRTX2000番台でもいける模様）
64GB以上のメインメモリ（32GBや16GBでも仮想メモリを割り当てれば動作します）
約60GBのSSD/HDD容量（実ファイルは45GB程ですが余裕をもって）
※FramePackはVRAM（グラボのメモリ）よりもメインメモリの要求が高いことが特徴です。

メインメモリについて
いままでそこまで重要視されてこなかったメインメモリが重要になります。
恐らく16～32GBが主流だと思いますが、お財布と相談してこの機会に64GBに換装するのもアリでしょう。
DDR4タイプなら17,000円、DDR5なら22,000円程から購入できるので、グラボ買うよりはかなりお手軽です。
（相場は2025年4月現在）

生成できるもの

1秒～2分程の動画。
i2v（image to video）形式のため、元になる画像が必要になります。
入力した画像に対してプロンプトで動きをつけるといったかんじ。
なお、AI生成した画像も普通に使えるので自分で生成→FramePackで動きをつけるといった作業の流れが効率的。
NSFWな画像にも対応しているためえっちなのも入力次第。

生成時間の目安

RTX3060/12GB、メインメモリ64GB環境
512×768程の動画サイズ、動画時間3秒を生成するのにで約20分程です。

グラボのグレードが上がれば生成速度は上がる見込み。
動画時間が長くなったり動画サイズが大きくなれば生成速度は下がります。
メモリは必要以上を積んでも高速にならない模様。

2分動画の生成だと丸一日作業になってしまうかもしれません。

導入手順

①下記のサイトにアクセス
https://github.com/lllyasviel/FramePack

②「>>> Click Here to Download One-Click Package (CUDA〇〇 + Pytorch 〇〇) <<<」をクリックして
任意の場所にダウンロード

③ファイルを解凍したら「update.bat」を実行。
「続行するには何かキーを押してください . . .」という表示が出たら何か押してウィンドウを閉じる。

④run.batを実行。初回はモデルDLなどが入るため、1時間程はダウンロードがかかる。
何も動いてないようでもウィンドウは閉じてはいけない。終了するとブラウザが立ち上がり、生成画面が開く。

Colabでの導入手順(FramePack)

下記2ブロックのコードを入れてすべてのセル実行。

# FramePackのインストール
!git clone https://github.com/lllyasviel/FramePack
%cd FramePack
!pip install -r requirements.txt

# FramePackの実行
!python demo_gradio.py --share

Colabでの導入手順(FramePack-eichi)

公式のセットアップガイドの「Google Colabセットアップ手順」を参照

使い方

①「Image」に動画の元になる画像を入れる。
　（画像サイズはソフト側で調整してくれるので気にしなくて良い。アスペクト比も好きな比率で大丈夫。）
②「Prompt」にプロンプトを入力する。日本語は不可。Hunyuan Video形式準拠。
③「Total Video Lengs(Secconds)」に生成秒数を入れる。動作確認なら2秒ぐらいで良い。
④「Start Generation」を押して暫く待つ。

高速化

デフォルトでは導入してくれないxformers等を入れると若干早くなる。下記参照。
https://github.com/lllyasviel/FramePack/issues/138

F1（Forward=前方予測モデル）

アップデートでF1モデル版が追加。F1のFは"forward"で、FLUX.1とは直接的な関係はないようです。
https://github.com/lllyasviel/FramePack/discussions/459

元のバージョンよりも大胆な動きをつけられるようになった
それ以前のバージョンでは最初に終端フレームを生成し、ケツから頭に向かって生成することで入力画像との乖離を抑制する双方向予測方式*2が特徴だったが、
F1では普通に頭からケツ（前方）に向かって生成されるようになった
「a new anti-drifting regulation（誤差蓄積対策）」については、P1 の紹介ページから推測すると、過去フレームの影響を弱めて誤差が先のフレームへ伝わりにくくする仕組みのようです

P1（計画的生成による誤差蓄積対策モデル）

2025年6月に次期バージョンとして発表されたものの、2026年1月現在音沙汰がありません。
紹介ページ https://lllyasviel.github.io/frame_pack_gitpage/p1/
論文「Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models」arxiv

Planned Anti-Drifting / 計画的な誤差蓄積対策
遠隔フレームを最初に生成し、逐次生成でなく中間に端点（endpoint）を飛び飛びに設定し先に生成することで、誤差が端点を超えて蓄積しないようにする仕組みのようです
History Discretization / 履歴離散化
履歴フレームを直で持つのではなく、LLMのようにいったんトークン化して持つことで、生成時と学習時とのギャップによって生じる誤差を防ぐ試みのようです

トラブルシューティング

run.bat実行後、モデル読み込んでる途中で「続行するには何かキーを押してください . . .」と出て終了してしまう
→メインメモリ不足。メモリが増設できない場合はとりあえず仮想メモリを増やせば動きます。ストレージを消費する上に遅くなりますが。
　（システム→バージョン情報→）システムの詳細設定→パフォーマンス→詳細設定→仮想メモリで、適当なドライブに60000MB(60GB)ほど割り当て（カスタムサイズで初期サイズと最大サイズ両方に60000を入力して設定ボタン押してOKボタン）てWindowsを再起動

プロンプトが無視される
→入力画像とかけ離れている指示は無視されてしまう模様。少しずつ動かしていくのがコツ。派生版では自動でやってくれるものも。

派生改造版

https://github.com/nirvash/FramePack
最終フレーム画像を指定できるようにしている
https://github.com/colinurbs/FramePack-Studio
セクションごとにプロンプトを変えられるようにしている。Hunyuan Video LoRA対応。
https://github.com/git-ai-code/FramePack-eichi
セクションごとにプロンプトと画像を設定できる(複数の差分画像をなめらかアニメ化)ようにしている他、いろんな改造を詰め込んでいるもの。Hunyuan Video LoRA対応（LoRAを使う場合はメインメモリ64GB・ビデオメモリ16GB以上必要）
※2025年10月現在レポジトリごと消えています
https://github.com/pftq/FramePack_with_Video_Input
動画ソースに追加できるようにしている
https://github.com/red-polo/FramePackLoop
ループ特化(Windows専用)
https://github.com/d8ahazard/FramePack
Wan2.1モデル対応(Windows専用)
https://github.com/Hillobar/FramePack-director
動画編集機能付き
https://github.com/Aspena2022/FramePack-eichi-alpha
eichi v1.7.1ベースの改造版　機能を削ったシンプルなUI、低stepsとTeaCacheの敷居値変更で高速化

はじめての方へ

初めての方はこちら
- よく見る用語集
- よくある質問

このwikiは研究用のwikiです。
知らない人には教えないでくださいね。
スクリーンショットを撮影しSNSに掲載等の行為は大変迷惑なのでご遠慮ください。
研究目的以外でリンクを掲載するなどの行為も含めご遠慮ください。

不具合・エラー情報

不具合issues
エラー解決メモ

スレの主な出来事

生成ツール

無料デモ・Webサービス

ローカル

AUTOMATIC1111 SD Web UI*1
- Forge
  - EasyReforge

ComfyUI
- Detailer
- Instant-LoRA

NMKD

Nvidia以外で使えるソフト等

AMD
Intel Arc / iGPU
- IntelのGPUで画像生成

モデル

モデルについて

画像生成モデル

動画生成モデル

その他

AUTOMATIC1111 SD Web UI

導入

ローカル版

Colab版

導入方法
- Googleドライブからモデルを読み込む
- 学習向けによりローカルの様にColab環境を作るには

Paperspace版

導入方法

使い方

初期設定

使い方（基本）

項目解説
- img2img
- Checkpoint Merger
出力設定

使い方（上級）

Extensions(拡張機能)

Custom Script

階層マージ

学習全般

学習データの種類

LoRA学習

LoRA学習の流れ

事前準備

画像の準備

キャプション・タグ編集

学習方法

学習方法
WebサービスでLoRA作成
- Civitai
- colab

学習のコツ

応用

学習させたLoRAの使い方

学習ファイルの使い方

アイデア・メモ

Wiki編集者向け

外部リンク

リンク集
- AIイラスト投稿

カウンター

今見ているページの
来場者カウンター
↓↓
今日 ?
昨日 ?
合計 ?
このページを見てる人 ? 人

〔人気/今日人気〕〔最新〕

T.?　Y.?
NOW.?　TOTAL.?
}}

*1 論文「Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models」に「We implement FramePack with Wan and HunyuanVideo...We report results with HunyuanVideo in the main paper」とあるが、2026年1月現在一般公開されているバージョンのソースコードにあるのはHunyuanのみ（https://github.com/lllyasviel/FramePack/blob/main/demo_gradio.py）。
*2 i2vでは最初の1フレームが入力画像であるため、常にそれに向かって生成が進むようにすることで乖離が抑えられるという仕組み。しかしながら動画生成モデルはモデル特性的に一足飛びの大胆な編集は苦手なので、最初に終端フレームを生成すると入力画像と似たり寄ったりになって動きが制限されがち。