概要
- 学習時のタグファイル作成を目的とした、stable Diffusion web UIのExtention。
役割はInterrogator - 本家toriato版
https://github.com/toriato/stable-diffusion-webui-wd14-tagger
A1111 WebUI v1.6で動作しなくなりそのまま更新停止、2025年12月現在はtoriato氏のアカウント自体にアクセスできなくなっているため上記リポジトリへのアクセスは非推奨。 - picobyte版(toriato版からのfork)
https://github.com/picobyte/stable-diffusion-webui-wd14-tagger
A1111系WebUIのExtensionsタブからavailable->load fromで選択できるのがこのリポジトリ。toriato版から多くの機能追加と修正がされている。 - 67372a版(picobyte版からのfork)
https://github.com/67372a/stable-diffusion-webui-wd14-tagger
picobyte版に対して後述のwd-eva02-large-tagger-v3などの新モデルが追加されている。
インストール
- WebUIを起動してExtensionをクリック。
- available->load fromを選択
- リストから、WD 1.4 taggerを探してインストール。
- installedで無事にインストールされていることを確認したらApply and restart UIをクリックしてWebUIを再起動。
上部メニューにTaggerが追加されます。もし追加されていない場合はコマンドプロンプトを再起動してみましょう。
使い方
単体ファイルごとのタグ生成画面
こちらは単体ファイルごとのタグ生成画面。
各タグのしきい値が見れる。
複数ファイル一括のタグ生成画面
複数の画像を一気にタグ付けするなら、Batch from directory。
input directoryとoutput directoryに画像を集めたフォルダをフルパスで指定します。
そしてinterrogateで機能を実行してしまいたいところですが一端ストップ。
- ページをスクロールするとinterrogateボタンの下にいくつか設定項目があるはずです。
- 説明画像で赤字に示した部分にチェックを入れればタグをABC順に並べて出力してくれます。
- これで良しと思うのであればinterrogateを押して処理開始。
自動でタグを記述したテキストファイルが、画像フォルダ内に出力されます。
採用タグの信頼性について
検出されたタグはそれぞれパーセンテージで表される信頼性(confidences)を持ち、信頼性の低いタグは除外される(キャプションテキストには書かれない)。
この信頼性はあくまでインタロゲーターによる自動検出での信頼性であり、人間の目と脳で確認した際に100%と判断できる要素でも低い数値が付く事もある。
除外判断のしきい値はWeight threshold項目で調節が可能で、値を大きくするとより信頼性の高いタグだけを採用し、逆に小さくすると信頼性の値が低いタグも採用されるようになる。
画像1枚を単独で検出すると、縦2列あるうちの右カラム「Excluded tags」タブをクリックすると除外されたタグが表示される。
必要なタグが多く除外されている場合はWeight threshold値を下げると良い。
実際のところWeight threshold値がデフォルトの0.35のままだと細かい表情や手の状態といった有用なタグが除外されている事も多いので、0.25以下にするのが無難か。
Interrogator(インタロゲーター)
画像の要素を検出・判別してそのタグを出力するアルゴリズムの事。 別名 インタロゲートモデル。
Taggerをインストールするといくつか付いてくるが、より検出能力が高い物を別途インストールする事もできる。
例を上げると…
- WD14 moat-tagger-v2 (2023年夏頃公開)
- wd-vit-large-tagger-v3 (2024年 7月公開)
https://huggingface.co/SmilingWolf/wd-vit-large-tagger-v3 - wd-eva02-large-tagger-v3 (2024年 7月公開)
https://huggingface.co/SmilingWolf/wd-eva02-large-tagger-v3
「で、どれが一番優秀なの?」と言われれば、おそらくeva02(2024年10月現在)。
インストール方法は…「tagger eva02-large-tagger-v3 モデル 追加」でググると出てくるはず。
検出精度の実験結果についても掲載されている。
注意: VRAMを喰います
インタロゲーターモデルはVRAMに展開され、wd-EVA02-Large-v3やWD14 Vit Large v3といった従来より大きな容量の物は2GB程度使用するようです。
VRAM16GB環境でも「一般画像からtaggerでタグを調べ、t2iに戻ってSDXL画像を生成 → OOM」という事態が発生しました。
使い終わった後はインタロゲーター選択欄の下にあるボタンでモデルをアンロードしておくと良いでしょう
Tips
taggerのgitって付いてるやつは何さ?
267無念Nameとしあき23/02/16(木)20:45:27 ID:s52zfrZM[5]No.1067520572No.1067520572 ngそうだねx1
>wd14taggerのInterogaterに語尾にgitと付いた奴は何が違うんだろう
元のリポジトリにブランチ2つあって
gitない方はmainから
ある方はV2.0からダウンロードするはず
現時点では同じなので特に差は無い
https://huggingface.co/SmilingWolf/wd-v1-4-swinv2-tagger-v2/tree/main




