> PiD

PiD

Last-modified: 2026-07-13 (月) 18:22:57

概要
モデルの種類
使い方
- ComfyUI
  - Comfy-Orgテンプレート
  - カスタムノード
- Forge neo
  - UI Preset=pidでの設定例
生成品質
- 特徴
- 品質に関する情報
コメント・指摘・助言

概要

NVIDIAが2026/5月に発表したupscaleモデル。
正式名称はPixel diffusion Decoder

詳しい説明はこちら
https://research.nvidia.com/labs/sil/projects/pid/
https://github.com/nv-tlabs/PiD

2026/5/25にComfyUIで導入され標準搭載、続いて、Forge Neoで導入された。

入力画像を再描画するタイプのUpscalerであり、プロンプト指示が可能
- "PiD reformulates the latent-to-pixel decoder as a conditional pixel-space diffusion model, unifying decoding"（PiDは、Latentからピクセルへのデコーダーを条件付きピクセル空間拡散モデルとして再定式化した）と説明されているとおり、PiDの本体は一般の画像生成と同形式の拡散モデル (Diffusion Model) である。
- 利用にあたってはPiDの拡散モデルの他にテキストエンコーダーとしてgemma_2_2bを使用する。
- Latentからピクセルへのデコード自体をモデル化しているためVAEは不要。

公式では「PiDはVAE/RAEデコーダーに代わるプラグアンドプレイ式の拡散デコーダー」*1とある通り、VAEは不要である
...のだが、全体の処理内容によっては結局併用するDiffusion Model(FLUX.1, Anima等)に対応したVAEが必要になる
- txt2imgで生成したLatent画像を入力とする場合はVAE不要（LatentアップスケールによるHires.fixのような使い方）
- 方式上FluxやQwen等の標準VAEと比較した場合の色変化が避けられないが、標準VAEの色に寄せるためにColor Match系ノードで補正する場合は、参照する「標準」色のピクセル画像が必要であるため標準VAEによるデコードが必要。
- ピクセル画像を入力とするimg2imgの場合は、最初にLatent画像にエンコードするためにVAEが必要。

アップスケールの品質の評価はあまり高くない（2026年6月時点の暫定評価。PiDモデルのチューニングにより評価は変動する可能性がある）
- 特にZIT, WAN2.1 VAE upscale2x, SeedVR2等と比較される事が多い。
- 現在リリースされているPiDモデルはx4倍固定であり、x4倍で比較すればPiDの品質と処理時間のバランスが取れてはいる。しかし一般に利用されることが多いx1.5倍やx2倍で比較すると、処理時間に対する品質が見合わないものとなる。
  （ESRGANなどのAIアップスケーラーもx4倍固定のものが多くx2倍で利用する場合はx0.5でダウンスケールする等が普通ではあるが、PiDは再描画を含む拡散モデルであるためESRGAN等とは比較にならないほど遅い。またSeedVR2等は可変アップスケーラーでありx4ではPiDのほうが速いが、x2ではSeedVR2の3bモデルと同等か僅かに遅くなる）
- FluxやQwen等の標準VAEと比較すると明らかに色が異なる。

モデルの種類

Comfy-Org/PixelDiT
https://huggingface.co/Comfy-Org/PixelDiT/tree/main/diffusion_models

使い方

ComfyUI

Comfy-Orgテンプレートに登録されているワークフローか、有志によるカスタムノードとサンプルワークフローで使用可能。

Comfy-Orgテンプレート

カスタムノードをインストールせずComfyui標準ノードのみで使用できるので、少し試すだけならこちらを推奨。
ComfyUIメニューの「テンプレート」を開き、"pid"等で検索すると見つかる「PiD: Latent Upscale Decode」というワークフロー。
PiDモデルはワークフロー内のリンクなどから自分でダウンロードする必要がある。

ワークフローの特徴
- 使用するノード：PiD Conditioningノード、sigmas付きのSamplerCustomノード
- Text to Image部分はZ-Image-Turbo、PiD部分はpid_flux1を使用する（Z-Image-TurboはFLUX.1のVAEを利用しているため）WFなので、他のモデルを利用したい場合はWFとモデルを自分で変更する必要あり
- Load CLIP・・・typeをpixelditに設定する

カスタムノード

https://github.com/Merserk/ComfyUI-PiD/
PiDモデルは自分で準備してもいいが、モデルがフォルダになくても使用時にダウンロードされる。
example_workflowsフォルダにサンプルワークフローが格納されている。
VRAM、DRAMともにあればあるだけ使う仕組みのようで、4kに上げるにはDRAMがかなり必要。
（24GBでは768x1024まではPiD SampleノードでOOMエラーで止まった、より細くするとギリギリ足りたが。ここで解像度制限が祟る…）

pid_qwenimage_complete.json
- デフォルトはQwen-Image向け設定
- Animaを利用する場合は以下を変更する。PiDノードはqwenimageのままでよい（AnimaはQwen-ImageのVAEを利用しているため）
  - Load Diffusion Model・・・animaのモデルを指定。
  - Load CLIP・・・qwen_3_06bモデルを指定。
- 解像度は特定のものしか使えないのでPiD Empty Latent Imageでckpt typeとresolutionを選択（こちらの環境では1k ckptと1:1、4:3はエラーで中断のため3:2以上を使った）で生成可能
pid_image_to_image_2kto4k_complete.json
- 他のアップスケーラーと同様のことをPiDモデルで行うワークフロー

Forge neo

二通りの使用方法があり、それぞれに制約がある。

xlやanimaのような画像生成モデルと同様に、左上のUI Presetからpidを選択してimg2imgで使用する方法
- img2imgタブでのみ利用でき、txt2imgタブでは利用できない。
Hires.fixやControlNet Integratedと同様に、txt2imgタブとimg2imgタブそれぞれにあるPiD Integratedというアコーディオンメニューのチェックボックスを有効にして使用する方法
- Hires.fixとの同時利用はできない。

UI Preset=pidでの設定例

https://github.com/Haoming02/sd-webui-forge-classic/wiki/Inference-References#pid

生成品質

特徴

配布モデルのトレーニングサイズが2K,4Kで、基本的に4倍へのアップスケールを想定したものであり極端過ぎる。
- なお、ComfyUI-PiDカスタムノードのUpscaleでは、
  2x、4x、6x、8x
  という選択肢があるものの、これはUIで選択できるだけである。
  Forge Neoでも4x以外を選択できる（ワーニングメッセージが出る）が、4倍モデルを4x以外のスケールで使用すると低品質な出力となる。
- NvidiaのPiD公式HFではSigLIP用の8xモデルがリリースされているが、Comfy-OrgからリリースされているSafetensors形式は4xモデルのみである。
- ComfyUI向けのカスタムノードやワークフローでも制約が多い。latent解像度は512*512, 1024*1024, 1024*768, 1008*672, 1008*432の縦横セットから選択、倍率も*4のみ（モデルが512学習と1024以上学習のよう）。

品質に関する情報

「NVIDIA PiD - Pixel Diffusion Decoder」を使用してZITとFlux-1をテストする
https://www.reddit.com/r/StableDiffusion/comments/1tnk3hg/testing_zit_and_flux1_with_nvidia_pid_pixel/

Nvidia PiDはわりと凄い！けど何に使えばいいの？
https://note.com/hirorohi03/n/n903b7000f27c

「最近の主な出来事」ページより
- PiDは4倍なのが本当にダメで使い道が無いわ。2倍だと性能的に他のアップスケーラーと勝負にならないんだろうけど。wan2.1 upscaleは2倍なので使い道があるかもね。 -- 2026-06-28 (日) 12:33:40New
- 週末にanimaのnsfwで使い比べてみたけど、PiDは本当に使いづらいね、不評も納得。AMD環境だからかエラーで使えない設定で解像度制限も更に厳しい、そのx4アップスケールもGemmaがcensoredだからか全然綺麗には仕上がらない。SDXLで不評なのももしかして？
  逆にwan2.1 VAE upscale2xは素直だった、アニメ絵もCG系も実写風も普通程度には仕上がる、1.5kで作るより1kで作ってアップスケールのほうが速いし。（3min対1min） -- 2026-06-29 (月) 11:33:28New!

コメント・指摘・助言

(Tips)

質問をするならここを見て！

既存コメントの先頭にあるラジオボタンをONにすると、そのコメントの下にぶら下げ返信する形になる(ツリー構造)。

コメントの文中で↵ボタン(下の画像参照)を押すと「&br;」の文字列が挿入される。これは送信後に改行として機能するので、文章の整形に役立つ。