概要
- NVIDIAが2026/5月に発表したupscaleモデル。
正式名称はPixel diffusion Decoder
- 詳しい説明はこちら
https://github.com/nv-tlabs/PiD
- 参照画像を改変するタイプのUpscalerであり、プロンプト指示が可能
- 公式では「PiDはVAE/RAEデコーダーに代わるプラグアンドプレイ式の拡散デコーダー」*1とある通り、VAEは不要である
- アップスケールの品質の評価はあまり高くないようだ(2026年6月時点の暫定評価。評価は変動する可能性があります)
- 特にZIT, WAN2.1 VAE upscale2x, SeedVR2と比較される事が多い...
- x4倍固定という極端な仕様
モデルの種類
- Comfy-Org/PixelDiT
https://huggingface.co/Comfy-Org/PixelDiT/tree/main/diffusion_models
特にバージョン管理(例:v1.0など)はされていないようで、常に最新版のものを使用する運用になります。
使い方
- ComfyUI
- 「PiD」の名前がつく各種ノードを追加して使用する
- 配布されているカスタムテンプレートを使用してもいい
- pid-qwenimage-complete
理論上はlatentでアップスケール後にピクセル化するこちらの方が高解像度の筈
qwenimage-completeの場合テンプレートを開く
Load Diffusion Modelをanimaのモデルに
Load CLIPをqwen3-06b
解像度は特定のものしか使えないのでPiD Empty Latent Imageでckpt typeとresolutionを選択(こちらの環境では1k ckptと1:1、4:3はエラーで中断のため3:2以上を使った)で生成可能 - pid-image-to-image系
他のアップスケーラーと同様のことをPiDモデルで行うノード
- pid-qwenimage-complete
- PiDモデルは自分で準備してもいいが、モデルがフォルダになくても使用時にダウンロードされる
- Forge neo
https://github.com/Haoming02/sd-webui-forge-classic/wiki/Inference-References#pid
生成品質
特徴(仮題)
- 配布モデルのトレーニングサイズが2K,4Kで、基本的に4倍へのアップスケールを想定したものであり極端過ぎる。
- なお、ComfyUIのPiD Upscaleノードでは、
2x、4x、6x、8x
という選択肢があるものの、これはガワだけの問題である。
- なお、ComfyUIのPiD Upscaleノードでは、
品質に関する情報
- 「NVIDIA PiD - Pixel Diffusion Decoder」を使用してZITとFlux-1をテストする
https://www.reddit.com/r/StableDiffusion/comments/1tnk3hg/testing_zit_and_flux1_with_nvidia_pid_pixel/
- 「最近の主な出来事」ページより
- PiDは4倍なのが本当にダメで使い道が無いわ。2倍だと性能的に他のアップスケーラーと勝負にならないんだろうけど。wan2.1 upscaleは2倍なので使い道があるかもね。 -- 2026-06-28 (日) 12:33:40New
- 週末にanimaのnsfwで使い比べてみたけど、PiDは本当に使いづらいね、不評も納得。AMD環境だからかエラーで使えない設定で解像度制限も更に厳しい、そのx4アップスケールもGemmaがcensoredだからか全然綺麗には仕上がらない。SDXLで不評なのももしかして?
逆にwan2.1 VAE upscale2xは素直だった、アニメ絵もCG系も実写風も普通程度には仕上がる、1.5kで作るより1kで作ってアップスケールのほうが速いし。(3min対1min) -- 2026-06-29 (月) 11:33:28New!
コメント・指摘・助言
(Tips)
- 質問をするならここを見て!
- 既存コメントの先頭にあるラジオボタンをONにすると、そのコメントの下にぶら下げ返信する形になる(ツリー構造)。
- コメントの文中で↵ボタン(下の画像参照)を押すと「&br;」の文字列が挿入される。これは送信後に改行として機能するので、文章の整形に役立つ。