ノイズスケジューラ

概要
主なノイズスケジューラ
主要ノイズスケジューラの生成過程（10ステップ）
- SDXL系モデルの生成過程
- DiT世代（Qwen-Image、FLUX.1他）の生成過程
diffusersにおけるスケジューラ

概要

ノイズスケジューラとは、本来は画像生成処理において各ステップで描き変える量（＝ノイズ予測量）をコントロールするコンポーネントのこと。

画像生成AI（拡散モデルやFlow Matchingモデル）は、トレーニング時には1000ステップ等のノイズ拡散過程を踏んで学習している。
基本的には、生成時の各ステップ（多くても50ステップ程度だろう）について、生成何ステップ目を学習時の何ステップ目に対応させるかを決めるのがノイズスケジューラである。
ただしkarrasスケジューラなど、モデルの情報を参照せず純粋に数学的にノイズ除去量を決めるスケジューラも一部存在する。

主なノイズスケジューラ

名称	特徴	相性
normal	無難。学習時の分布に近いスケジュール	モデルによらず〇
simple	無難。normalに近い	モデルによらず〇
karras	SDXLモデルで作画が安定しやすい	（デフォルト値だと）Qwen-Image、FLUX.1等のDiTモデル×
beta	デフォルト値だとnormalより少しステップごとの描き込み量の変動がマイルドになるのでi2i向き弄ろうと思えば自由にスケジュールを弄れる
linear_quadratic	後半に描きこみを集中。ディティール描写が強い	SD1.5・SDXLモデル×

normal (linear)
モデルの学習時のノイズスケジュールを素直に反映するので、最適ではないにしても無難なノイズスケジューラ。
SDXLモデルでは前半に構図を安定させてその後ゆっくりディティールの描写を行う。
各生成ステップを単純に　（現在のステップ数÷総生成ステップ数）×（総学習ステップ数［SD1.5やSDXLでは1000］）　に相当する学習時ステップ数に対応させる（生成は「逆」拡散過程なので、SDXLなら1000からその値を引いたステップ数になる）。
対応先の学習時ステップ数が中間値になる場合は線形補完を行う。
ただし、SDXLモデルではノイズ付加量自体は学習時の拡散過程において絵が崩れていく後半ほど多くなるようになっている。
このため、「時間間隔としては（生成時と学習時とで）均等」に割り振られているが、「描き込み量（＝ノイズ除去量）はノイズの多い前半のほうが多い」というスケジュールになる。
これは学習時のノイズスケジュールに依存するため、DiT世代のモデルではnormalスケジューラでもSDXLより前半の描き込みが穏やかで後半の描き込みが多いスケジュールになっている。

simple
ComfyUIのsimpleスケジューラはnormalとほぼ同じ……はずだがシグマ値を出してみるとちょっと値が違う。
normalより前半の描き込みがちょっとだけ緩やかで終盤の描き込みが少し多い。
normalと異なる点は、線形補間を行わず、モデルが持っている学習時のシグマ値（残留ノイズ量）配列を直接間引く形でスケジュールすること。

karras
SDXLモデルのnormalスケジューラよりもさらに前半に描き込みが偏っているノイズスケジューラ。
低ステップ数での構図の安定に主眼が置かれている。SDXL系（U-Net拡散モデル）が暴れやすいディティール描写の描き込みを適切な量に抑えることで品質を上げる。
モデルの情報を参照せずにスケジュールを組むため、ComfyUIのデフォルト値だとDiT世代のモデルではnormalスケジューラよりもかなり前半に描き込みが偏る。
（デフォルト値は）Qwen-ImageやFLUX.1といったDiTモデルと相性が悪く、そのまま適用するとほぼまともな絵にならない。

beta
2025年12月現在、uni_pc_bh2サンプラーと合わせてHires.fix処理を行うときの推奨設定となっている。
ComfyUIのデフォルト値であるα=β=0.6だと、モデル次第だがSDXLモデルでは前半の描き込みが緩やかになり後半のディティール描写が増えるのでi2iに向く。
ベータ分布に基づくスケジューリングを行う。
ただし、ベータ分布に基づいて決められるのは「各生成ステップに対応する学習時ステップ数」であり、シグマ値（残留ノイズ量）そのものではない。
ComfyUIでカスタムサンプラーと「ベータサンプリングスケジューラー」ノードを使えばフリーダムにスケジュールをコントロールできる……がそこまでやるユーザーは稀だろう。
αを上げると前半、βを上げると後半の描き込みが多くなり、双方の数値が高いほど中間の描き込みが多くなる
（正確には、描き込みが多くなるというより生成ステップのその部分に学習時のより広いステップ範囲を対応させる）。

linear_quadratic
SDXL系のnormalスケジューラとは対照的で、前半は全然描きこまず後半のディティール描写の部分に描き込みを集中させるノイズスケジューラ。
通常のモデルでは構図が安定しにくくなるため推されることは少ないが、NetaLumina系モデルの推奨スケジューラとなっている。
ディティール描写が過剰になるときは他のスケジューラに差し替えたほうが良い。
これまたモデル情報を参照せずにスケジュールを組んでいるようで、DiTモデルはQwen-ImageだろうがFLUX.1系だろうがLumina-Image系だろうがみんな同じスケジュールを返す。
SDXL系（U-Net拡散モデル）とは絶望的に相性が悪く、まずまともな絵にならない。DiT系モデルについてはモデルと描きたいもの次第。

主要ノイズスケジューラの生成過程（10ステップ）

ComfyUIで「基本スケジューラー」ノードの出力を「プレビュー任意」につなぐとシグマ値（残留ノイズ値）の配列を取得できる。

SDXL系モデルの生成過程

U-Net拡散モデルは大局的な整合性を取るのが苦手でディテール描写が暴発しやすい為、
生成過程では大まかな構図を勢いよく描いてからちびちびディテールを描き加えるというスケジュールが基本となっている。

SDXL系モデル e-pred（WAI-illustrious-SDXL v15）

ステップ数	シグマ値（残留ノイズ量）
ステップ数	normal	simple	karras	beta	linear_ quadratic
0	14.6146	14.6146	14.6146	14.6146	14.6146
1	7.8399	8.3028	9.1029	11.5428	14.5416
2	4.6092	5.0878	5.4784	7.3718	14.4685
3	2.9183	3.3211	3.1686	4.3728	14.3954
4	1.9502	2.2765	1.7494	2.6152	14.3223
5	1.3449	1.6129	0.9141	1.6183	14.2493
6	0.9324	1.1606	0.4469	1.0273	13.6208
7	0.6250	0.8299	0.2014	0.6549	11.8817
8	0.3687	0.5693	0.0819	0.3955	9.0318
9	0.0292	0.3417	0.0292	0.1991	5.0713
10	0.0000	0.0000	0.0000	0.0000	0.0000

DiT世代（Qwen-Image、FLUX.1他）の生成過程

Transformerは大局的な整合性を取るのは（同時代の他のAIモデルより）得意な反面、局所的なエラーがそのまま広域に拡散しやすい。
このためU-Net拡散モデルのように前半で勢いよく構図を決めるのではなく、完成形が見えてくるまで慎重に品質をコントロールするスケジュールが基本となっている。
大枠が固まってしまえばTransformerネイティブなSelf-Attentionで強力な整合性が担保される為、終盤の描き込みは鮮やか。

DiT世代 Qwen-Image（FP8版）

ステップ数	シグマ値（残留ノイズ量）
ステップ数	normal	simple	karras	beta	linear_ quadratic
0	1.0000	1.0000	1.0000	1.0000	1.0000
1	0.9619	0.9660	0.5751	0.9871	0.9950
2	0.9170	0.9266	0.3154	0.9575	0.9900
3	0.8633	0.8805	0.1635	0.9118	0.9850
4	0.7979	0.8257	0.0791	0.8473	0.9800
5	0,7165	0.7595	0.0352	0.7596	0.9750
6	0.6124	0.6780	0.0141	0.6426	0.9320
7	0.4746	0.5751	0.0049	0.4912	0.8130
8	0.2836	0.4412	0.0014	0.3070	0.6180
9	0.0009	0.2598	0.0003	0.1155	0.3470
10	0.0000	0.0000	0.0000	0.0000	0.0000

diffusersにおけるスケジューラ

diffusersライブラリにおいて（のみ）は、ComfyUI等におけるsamplerに相当する。
ComfyUIは逆にサンプラーの中にノイズスケジューラをまとめている（分けることもできる）のだが、diffusersはスケジューラの中にサンプラーを入れてしまっている。

特にsd-scriptsにおけるノイズスケジューラは、下記フォルダ内のデータを指す。
```
sd-scripts\venv\Lib\site-packages\diffusers\schedulers
```

概要

主なノイズスケジューラ

主要ノイズスケジューラの生成過程（10ステップ）

SDXL系モデルの生成過程

DiT世代（Qwen-Image、FLUX.1他）の生成過程

diffusersにおけるスケジューラ

はじめての方へ

不具合・エラー情報

スレの主な出来事

生成ツール

無料デモ・Webサービス

ローカル

モデル

画像生成モデル

動画生成モデル

その他

AUTOMATIC1111 SD Web UI

導入

ローカル版

Colab版

Paperspace版

使い方

初期設定

使い方（基本）

使い方（上級）

学習全般

学習データの種類

LoRA学習

事前準備

学習方法

学習のコツ

応用

学習させたLoRAの使い方

アイデア・メモ

Wiki編集者向け

外部リンク

カウンター