> musubi-tuner

musubi-tuner

Last-modified: 2026-07-23 (木) 20:32:16

学習データの作成・編集を得意としたプログラムの1種。

概要
- sd-scriptsとの違い
背景
当wikiとしての立ち位置
導入方法など
- 公式ドキュメントにない作業差分
  - どうやって最初にローカルPCへコピーする？
  - venvフォルダはいつ作る？
コメント・指摘・助言

概要

musubi-tunerとは、kohya-ss氏*1及びそのcontributorsが作成したプログラムの１つ。
https://github.com/kohya-ss/musubi-tuner

sd-scriptsとの違い

主に学習できる対象モデルが違う。
sd-scriptsよりもちょっと複雑系なモデルが多い

画像生成AI
- FLUX.1 Kontext
- FLUX.2 dev/klein
- Qwen-Image
- Z-Image
- ideogram4
- Krea2
動画生成AI
- hunyuan_video
- Wan2.1/2.2

開発者のご認識

バックアップ

一応Musubi Tunerは動画モデルと編集機能のある画像生成モデル（Z-ImageとKrea 2は編集モデルが予告されていた）、sd-scriptsは編集機能のない画像生成モデル、という住み分け
（以下略）
午後7:32 · 2026年7月23日

背景

musubi-tunerはsd-scriptsよりも後発で、2025年に導入された。
リリース当時の状況として、2024年FLUX.1が登場、さらに2024年末にWanが登場し、もともとsd-scriptsが得意としていたStable diffusionとは大きく異なるアーキテクチャだったり、VRAMを大量消費するという都合上、sd-scriptsプログラム自身も、従来の設計と対象ユーザーを維持したままの開発が難しくなっているという背景があった。
決定的な動機については未調査ではあるが、2025/3/4にWan2.1の推論、つづけて2025/3/7にWan 2.1のLoRA学習がサポートされた。
それ以降、sd-scriptsとお互いの機能を輸入／逆輸入を繰り返しながら、並行した開発が続けられている
競合ツールとしては、ai-toolkit、OneTrainerがある。

当wikiとしての立ち位置

2026年6時点での立ち位置としては、

対象とするモデルが基本的に、推論が遅い、VRAMを大量消費するものが多い、過去モデルからの移行が面倒等の理由から、VRAM16GB以下が主流で画像生成を好むとしあき達*2とのニーズに合致せず、話題にならず、記事にもなっていない。
- 特に背景としては、画像生成AIとしては、SDXLとAnimaが人気であり、としあきのコミュニティとしてのニーズが圧倒的に高いということ。
  また、動画生成AIの学習としては、そもそもとしあき達は学習に至るほどの教師データを持っていないのでは？という素朴な疑問もある。
  それこそ、海外コミュニティや商業目的の人を中心として、redditで触れられたりしているくらいだった。
しかしながら、2026年6月にKrea2が登場したことがきっかけで、特定のコミュニティに限らずしばしば話題になりはじめた。

導入方法など

先述の公式ページのドキュメントが充実していますので、そちらをご参照ください。

公式ドキュメントにない作業差分

インストールでつまづいたときに読んで下さい

どうやって最初にローカルPCへコピーする？

インストールしたいフォルダ内部で下記実行

git clone https://github.com/kohya-ss/musubi-tuner

venvフォルダはいつ作る？

グローバル環境と独立させた環境にしたい場合は、忘れずにvenvを有効化しておく。
そうしておかないと、グローバル環境が上書きされ、他のインストール済アプリが動かなくなるリスクがある。

#ここでvenv作成コマンド（先述リンクを参考）
python -m venv venv
venv\Scripts\activate
pip install torch torchvision（以下略）
pip install -e .

コメント・指摘・助言

(Tips)

質問をするならここを見て！

既存コメントの先頭にあるラジオボタンをONにすると、そのコメントの下にぶら下げ返信する形になる(ツリー構造)。

コメントの文中で↵ボタン(下の画像参照)を押すと「&br;」の文字列が挿入される。これは送信後に改行として機能するので、文章の整形に役立つ。