学習データの作成・編集を得意としたプログラムの1種。
概要
- musubi-tunerとは、kohya-ss氏*1及びそのcontributorsが作成したプログラムの1つ。
https://github.com/kohya-ss/musubi-tuner
- sd-scriptsとの違いは、主に学習できる対象モデル。
sd-scriptsよりもちょっと複雑系なモデルが多い- 画像生成AI
- FLUX.1 Kontext
- FLUX.2 dev/klein
- Qwen-Image
- Z-Image
- ideogram4
- Krea2
- 動画生成AI
- hunyuan_video
- Wan2.1/2.2
- 画像生成AI
背景
- musubi-tunerはsd-scriptsよりも後発で、2025年に導入された。
- リリース当時の状況として、2024年FLUX.1が登場、さらに2024年末にWanが登場し、もともとsd-scriptsが得意としていたStable diffusionとは大きく異なるアーキテクチャだったり、VRAMを大量消費するという都合上、sd-scriptsプログラム自身も、従来の設計と対象ユーザーを維持したままの開発が難しくなっているという背景があった。
- 決定的な動機については未調査ではあるが、2025/3/4にWan2.1の推論、つづけて2025/3/7にWan 2.1のLoRA学習がサポートされた。
- それ以降、sd-scriptsとお互いの機能を輸入/逆輸入を繰り返しながら、並行した開発が続けられている
- 競合ツールとしては、ai-toolkitがある。
当wikiとしての立ち位置
2026年6時点での立ち位置としては、
- 対象とするモデルが基本的に、推論が遅い、VRAMを大量消費するものが多い、過去モデルからの移行が面倒等の理由から、VRAM16GB以下が主流で画像生成を好むとしあき達*2とのニーズに合致せず、話題にならず、記事にもなっていない。
- 特に背景としては、画像生成AIとしては、SDXLとAnimaが人気であり、としあきのコミュニティとしてのニーズが圧倒的に高いということ。
また、動画生成AIの学習としては、そもそもとしあき達は学習に至るほどの教師データを持っていないのでは?という素朴な疑問もある。
それこそ、海外コミュニティや商業目的の人を中心として、redditで触れられたりしているくらいだった。
- 特に背景としては、画像生成AIとしては、SDXLとAnimaが人気であり、としあきのコミュニティとしてのニーズが圧倒的に高いということ。
- しかしながら、2026年6月にideogram4のようなパラメータ少なめで独自活用可能なモデルの学習に対応したので、今後利用者が増えれば話題になるかもしれない。
単純にmusubi-tuner関連の学習ページがなかったから、という理由もあるかもしれません。情報提供をお待ちしております。状況証拠に基づく偏見でしかないので、すべて書き直して良いですよ。ただ、当時のコミュニティの雰囲気を表す情報は、今後のための良い記録になるのでうまく活かしてね。
導入方法など
先述の公式ページのドキュメントが充実していますので、そちらをご参照ください。
公式ドキュメントにない作業差分
インストールでつまづいたときに読んで下さい
どうやって最初にローカルPCへコピーする?
インストールしたいフォルダ内部で下記実行
git clone https://github.com/kohya-ss/musubi-tuner
venvフォルダはいつ作る?
グローバル環境と独立させた環境にしたい場合は、忘れずにvenvを有効化しておく。
そうしておかないと、グローバル環境が上書きされ、他のインストール済アプリが動かなくなるリスクがある。
#ここでvenv作成コマンド(先述リンクを参考) python -m venv venv venv\Scripts\activate pip install torch torchvision(以下略) pip install -e .