よくある質問

Last-modified: 2023-09-27 (水) 01:30:39

質問をする前に

  • まずは出てきた言葉で調べてみましょう。
  • 今見てるページ(よくある質問)内で検索しましょう。
  • としあき達はエスパーではないので、曖昧・あやふや・雑な質問には回答しませんできません。
  • ツール名(または生成サービス名やURL)を書きましょう。
  • あと再起動をするとなんか解決することもあるよ。
  • 誰に質問するかも吟味してみましょう。

注意

  • 画像生成AIプログラム各種はまだ発展途上で、連日機能改善やバグFixを繰り返しています。
  • あなたが遭遇するエラーは、多くのとしあきにとって未経験です。「同じ経験はありませんか?」は反応しにくい質問です*1
  • したがって、説明の手間はかかると思いますが、詳しい状況説明が必要なのです。

画像に関する質問

  • 自作のAI画像を添付しましょう。AI絵は基本的に生成時の呪文やパラメータが画像内に埋め込まれる仕組みだからです。より良い回答やアドバイスを得やすくなります。
    ただし画像編集ソフト等でモザイク修正をかけると、多くの場合、埋め込み情報が失われてしまう点に注意してください。質問内容によりますが、性器描写を避けた健全絵を添付して質問するのも一つの手です。
  • 実際の画像とメタデータなしに「ぼやける・崩れる・画質がどうこう」と質問するのは、「エスパーしてくれ」というお願いと同義なので、やめましょう。

エラーに関する質問

  • まずは表示されたエラーメッセージを日本語翻訳にかけてよく読んでみましょう。
  • 元の英文のエラーメッセージでGoogle検索しましょう。
  •  誘導→エラー解決メモの各ページ
  • エラーに関して質問する場合は、必ずエラー画面のスクリーンショットを貼ってね。
    としあきが「ここがエラー文だ」と思っている箇所の前後にも、重要な情報が表示されている場合が多いからです。
    Windows+Shift+Sで範囲選択してスクショを撮れるよ。
    スクショも貼らずにエラー質問する者は黙delでいいです

PCスペックに関する質問

  • デスクトップPCかノートPCか、また、グラボとVRAM容量を書きましょう(例: デスクトップPC、3060(12GB))
  • 「RTX○○(GPU名)でいける?」→既に持ってるのか、それとも購入/買い替え検討なのかを明記してくれ
  •  誘導→PCスペック

質問テンプレ

  • いつ、何をしようとして、エラーに遭遇したのか。
    • 最新Ver.で解決済みの問題もあるので、Ver.は大事。
  • 理想の状態は何か?
    • 無視できるエラーもある。実害が何かを提示すると対処しやすくなる。
  • エラー解決のために、具体的に何をしたのか。
    • ログ一覧
    • コマンド入力一覧
    • 画像生成結果
  • エラー発生原因として思い当たることは?通常と異なる何かをした?

金言
1677146007249.jpg

 

…ここまでして質問するって、めんどくさいですよね?
画像生成AIの完成度はまだまだで、中級者向けの改良が急務で、初心者には優しくない世界です。
気長に待って、良いアプリやインストーラの登場を期待するのも悪くないですよ。

不適切なコメントを見かけた方へ

  • wikiは皆様からの情報を蓄積していくものです。
    その一つ一つの積み上げを大切にしています。
  • コメント欄は有限であり、申し訳ないですが今後のページ容量のことも配慮しないといけません。
    愚痴を見かけたら黙delで良いです。

とてもよくある質問

しばらくスレを覗いてなかったけど何か新しい動きあった?

誘導→最近の主な出来事

久しぶりに1111を更新しようとしたらエラーが出る

何週間ぶりか知らないけど
詰まって困るくらいなら大人しく新しいフォルダにgit cloneする方がいい
自分で解決する知識と気力があるなら話は別

僕もお絵描きAIを使えば貼られてるようなエッチな画像を作れますか?

同じモデル・同じ呪文・同じ学習データを用意すれば作れます。
自分の性癖にマッチしたものを作るには個人で学習をする必要があるので大変です。
以前は学習大変でしたが最近ではゲーミングパソコン程のPCと環境構築するための多少の根気があれば
個人で学習モデルを製作可能なレベルになりました。(2023年1月後半頃より)
詳しくはこちら→LoRA

エロ絵が出にくい…

プロンプト(呪文)だけでなくモデルによる影響も大きい。学習してある単語や画風が、モデル毎に大きく異なるのだ。
モデルによってはクオリティ重視でほとんどエロが出せないモデルもあるので入手先で確認すること。

  • 特にAnything系列のモデルは、竿役や男性器などを指示してもほとんど描いてくれない。
    その代わり、品質や画風などについて長々と指示しなくとも、二次元美少女をお手軽に出力できる…という長所を備えている。
  • NovelAIでは、デフォルトでNAI Diffusion Anime(Curated)という健全絵向けのモデルが選択されている。
    まずはこれを(Full)に切り替えること。そしてもう1点、プロンプトの中に「nsfw,」を書き足すとなお良い。
  • 1111やNMKDを使用している場合は、エロに強いモデルを探して導入しよう。
     誘導→モデルについて#モデルの紹介やリンク

ツール選び

AI絵の生成Webサービスとローカル環境構築、どっちがいいの?

本Wikiがオススメするのはローカル環境の構築です。本Wiki自体、ローカル生成者向けの情報を多く取り扱っています。

体験ツール/Webサービス

要求されるPCスペックが低いのが特長です。
また大半のサービスがスマホやタブレットからの利用にも対応しています。
これからAI絵を始めたい人、PCを持ってない人やPCスペックに自信がない人におすすめです。
最近(2023/8)は学習ファイルを使用可能なサービスが増えてきました。Dezgo、PixAI、SeaArt等。
モデルの追加、出力できる画像サイズの向上、ControlNet機能の実装、法人向けの高価な機材導入による速度向上などもあります。
冬頃に比べ、ローカル環境との差は大きく縮まりました。
しかし突然の仕様変更・規約変更・サービス終了などの不安は今後も残るため、注意が必要です。

ローカル環境構築

✔ 生成が無制限(一度環境構築してしまえば何枚でも無限に生成可能)
✔ 表現規制なし(マニアックな絵でも出力し放題)
✔ サービス終了の心配がない(バックアップを取っていれば新PC移行しても半永久的に再構築可能)
✔ 大量に生成する場合はWebサービスより安価になる
✔ 学習ファイルの作成が可能
❌ ある程度の性能を満たしたPCが必要
❌ Webサービスに比べて導入難易度が高い
ローカル環境の構築には数多くのメリットがあります。既にPCを持っているのであれば、ぜひ検討してみてください。

低スペPCでもできる、またはPCが無くてもできるのはどれ?

  • まずは体験版リンクをどうぞ。無料、インスコ不要。中にはスマホに対応してるものもあります。
    ブラウザから操作できます。またクラウドで動作する仕組みなので、PCの性能に自信がない方にもおすすめです。
    短所は時間帯によっては順番待ちが長くなることと、デモ版ゆえに画像サイズやモデル選択等の機能が制限されていることです。
  • 若干の努力を必要としますが、ColabでStable Diffusion web UIを動かすこともできます。GoogleのPCを借りて遠隔操作する形になります。
    無料ですが、一日当たり使える時間が限られます。

始めたばかりの人向け

画像が作れない

まずは「何の画像も出てこない」「真っ黒やぐちゃぐちゃだったりして生成できてるとは思えない」など、どういう状況なのかを区別しよう

何の画像も出ない

エラーが起きている可能性が高い。使っているツールとエラーメッセージをチェックして調べよう。
頻出エラーならwikiにも対策が掲載されている場合もあるし、エラーメッセージでそのままグーグル検索したり、あるいはChatGPTなどのAIに質問しても答えが見つかることがある。
それでもわからなかったら、ツールとエラーメッセージを添えて質問してみよう。

真っ黒な画像が出た

 誘導→エラー解決メモ#A tensor with all NaNs was produced in VAE.

まともな画像が出ない

ケースバイケースだが、まずはこのページを一通りチェックしてみよう。
プロンプトやパラメータ、サンプラーやステップ数を調整することで解決するかもしれないので試してみよう。
また、学習ファイルを使う場合、学習ファイルの適用方法が間違っていたり、あるいは学習ファイル同士が干渉してたり、そもそもきれいに学習できていない失敗作の学習ファイルを使っているのかもしれない。
学習ファイルを外してどのように画像が生成されるかも確認しよう。

大きなサイズの画像を出したい

版権キャラを出すにはどれがオススメ?

メジャーなキャラ、かつ、ひと昔前の流行りなら、体験版リンクNovelAIでも出せるかもしれません。
マイナーキャラや最新すぎるキャラの場合には、自分で学習させる必要があります。もしくは有志が学習データを作成し配布している可能性もあります。
ただし自分で学習させるにせよ、有志の学習データを利用するにせよ、1111もしくはNMKDが必要になりますので、ローカルorレンタルGPUを検討してください。

出しやすい・再現しやすい版権キャラっている?

例を一部挙げるとミクさん・チノちゃん・アスカ・めぐみんとか。他にもいっぱいいる。
ひどく大雑把に言うと、人気の高さやファンアートの数。より正確に言うならモデルがそのキャラをどれだけ学習してるか、の影響が大きい。
Danbooruのキャラ名タグの数もある程度は参考になる。
しかしDanbooruから学習したモデルとは限らないし、実際に例外が多数確認されている。

もっと詳しく

簡単に出ないなら、まずは髪型・髪色・衣装・アクセなどの指定を組み合わせて可能な限り寄せてみよう。
キャラ名だけで簡単に出るとしても、指定を増やすことで打率がさらに高くなる。ただし限界はある。またプロンプトをあまり長くしすぎると今度は弊害の方が大きくなる。
身も蓋もないことを言えば、「再現できなければ自分で学習させて個人で楽しむ」、それが可憐な乙女のポリシー。

こんな方法もあります:

  • Danbooruでそのキャラによく使われているタグを調べ、それをプロンプトに利用する
  • DeepDanbooruに画像を読み込ませることで、画像の内容からタグを提案させる

先週よりいい画像ばかりだから勝手に学習したんだね

NO。現在の画像生成AIには、自動的に学習する機能はありません。
また、ユーザーが入力した呪文や生成結果の画像によって自動的に学習していくということもありません。
恐らくはユーザー自身がAI絵の知識とコツを蓄積したり、目的に合った呪文を見つけたことによって良い画像になっただけでしょう。
1111やNMKDには学習機能も用意されていますが、ユーザーがそれを意図的に利用しない限り、勝手に学習を開始してくれることはありません。

最新のグラボに買い替えたんだけど以前と生成速度が速くならない

がっかりするのはまだ早い。下記の項目を上から順に確認してみよう。

  • (RTX 40xxの場合) torch: 2.0.1+cu118にする。torch: 1.xはRTX40xx用に最適化されておらず、半分程度の速度しか発揮できないため
     誘導→Xformersを導入する#Pytorchのアップグレード
  • グラボのドライバを最新にする
  • マザボのドライバ、ファームウェアを最新にする(意外と盲点)
  • stable-diffusion-webuiフォルダ内のvenvを削除して再構築する ※バックアップはとっておくこと
     誘導→venv

Pythonのバージョンは何が良い?○○だと駄目なの?

  • Python3.8未満および3.11以上のバージョンは使用しないでください。
    Stable Diffusion web UIが対応していないバージョンです。
  • 推奨バージョンはPython 3.10.6です。開発者もそのバージョンで動作確認を行っているはずなので、ローカルに環境を作る場合はバージョンを合わせておいた方が無難です。
    • ただし、Python 3.10.6では動かなかったという報告もあります(2023/8/5*2)

なお、ColabPaperspaceのようなオンラインサービスの環境では3.9がインストールされているのをそのまま使う場合がありますが、別にバージョンをぴったり合わせなくても動くのでそれほど心配する必要はありません。3.8~3.10を使っている限り、エラーが起きてもPythonのバージョンが原因である可能性は低いです。

AI以外で既にPython3.11を使ってるんだけど

3.11はそのまま3.10を追加でインストールして、venv(Pythonによる仮想環境)を使用することで特定のフォルダ内でのみ3.10を使用することができます。
3.10の追加インストール後、コマンドプロンプトでSDやLoRAを配置したフォルダへ移動し

py -3.10 -m venv venv

と入力することで仮想環境が作成されます。
作成した仮想環境に入るためには同じフォルダで次のように入力します。

venv/Scripts/activate

仮想環境に入ることができれば、コマンドプロンプト左側に(venv)と表示されます。また、Python -Vで3.10が動いていることを確認できます。
この状態でSDやLoRAのインストール・実行を行いましょう。
また、次のコマンドによって仮想環境から出ることができます。

deactivate

一度終了後再びSD等を実行したい場合は再度venv/Scripts/activateで仮想環境に入りなおす必要があります。
venv環境の作成、バージョンの確認

呪文関連

その画像の呪文教えて

呪文が出ない場合、モザイク処理などの都合で消えていることあります。
いい呪文を唱えた人に敬意を持ち、直接聞いてみましょう。

他にも、後述する拡張機能のImage Browserは自分が生成した画像を一覧表示して、それぞれの画像をクリックすると生成時の情報を表示してくれます。
削除を押さないように注意。

埋め込み情報を残したままモザイク修正かける方法ないかな?

としあき製のモザイクツール(2023/04/08版)を使うと、メタデータを保持したままモザイク処理を適用できるよ。
マウスを右クリックする度にモード変更(モザイク大/モザイク小/ぼかし/黒塗り)
としあき製のモザイクツール(2023/05/13版)を使うと、フォルダをドラッグアンドドロップしてフォルダ内のファイルを連続でモザイクしていけるよ。さらに[CTRL]+[Z]キーでアンドゥもできるよ。
としあき製のモザイクツール(2023/08/08版)モザイクツールをバージョンアップしといたよ。EXE版はこちら

(2023/08/08)

画像フォルダドラッグ時に.webp形式も開けるように対応。

カンバスをウィンドウサイズに合わせてリサイズするように変更。

マウスチルトでカンバスの水平スクロールに対応。

モザイク中を追加。

モザイクサイズとグリッド吸着サイズを同期化(モザイク大を重ねがけしたときにグリッドがズレてぐちゃぐちゃにならないようにする為)

処理中のファイル名をウィンドウタイトルに表示。

その他バグ修正等。

ついでに python環境なしでも使えるようにpyinstallerでEXE化。EXE版はサイズが大きので外部にアップロード(100日限定公開:ダウンロード期限 2023年11月16日(木))

(2023/05/13)

元の作者や改良してくれた人とはさらに別のとしあきなんだけど、フォルダ内の大量画像を連続してモザイクしていけるようにフォルダ指定モードを追加したよ。

mosaic.batにフォルダをドラッグアンドドロップして使ってね。[CTRL]+[N]キー or [→]キーで次の画像ファイルへ進み、[CTRL]+[B]キー or [←]キーで前の画像ファイルへ戻れるよ。

あと、[CTRL]+[Z]キーでモザイク処理をアンドゥできる機能も追加しといたよ。pythonを知らないエンジニアがchatGPTさんに教えてもらいながら改造したのでバグってたらゴメンね。

(2023/04/08)

wikiに貼られてた「としあき製のモザイクツール」をちょっと改良してみました。一言でいうと事前準備が不要になり、余計なフォルダを汚さないようになりました。

(2023/01/31)

元の作者とは別のとしあきなんだけど

モザイクの範囲指定にグリッド吸着を入れたかったので改造してみました

(2023/01/24)

mosaic.txtをmosaic.batにしてダブルクリックで起動するだけよ

もし一瞬で閉じて起動しなかった場合はPILっていうPythonの追加モジュールがはいってないとおもうからコマンドプロンプトから

pip install pillow

ってやってモジュールいれるだけ怖くないよ

(追記: 04/08 版でこの作業は不要になっています)

なお、一般的なローカル1111民の環境を想定に用意されたものなので、
1111をワンタッチ導入した人や、NMKD民、NovelAI民などの人には、Python 3.10のインストールも必要になるようだ。
その方法については、ローカル版導入のページにある「2. Python 3.10をインストールする」の部分を参考にしてほしい。
(追記:としあき製のモザイクツール(2023/08/08版)のEXE版で、Python環境がなくても使用できるようになりました。Windowsのみ。)

同じ呪文を唱えてもみんなと違う画像が出るのはなぜ?

  • モデルや学習データやその他細かい設定の適用などで違う可能性があります。
  • 全然違う画像が出ている場合はモデルが違う場合がほとんどだと思いますので、貼られている画像のModel hash:の部分を確認しましょう。
    モデルマージという機能(調合のようなもの)でマージモデルを自作している人もいます。
  • もしくは、文章から画像の生成ではなく、画像から画像の生成(img2img)をしている場合があります。
  • 設定項目はt2i,i2iタブだけでなく、Settingsにも多数あります。そちらもチェックしましょう。
  • 使用しているライブラリのバージョンが違う場合があります。
    torch等が一例ですが……アプリの安定性に影響を与えるので、そこまでして同一Ver.にこだわる必要はないでしょう。

どんな呪文を唱えたらいいの?

https://magic-generator.herokuapp.com/ などを使用するか、人の呪文を参考にしましょう。
もしくは「〇〇 danbooru」などで検索してもいいかもしれません。  例)「口内射精 danbooru」
ここの呪文コーナーのリンクを確認してもいいかもしれません。

表情とかどう指定すればいいの?

https://rentry.org/faces-faces-faces を参照
ここの呪文コーナーのリンクを確認してもいいかもしれません。

呪文の () と {} って何が違うのさ?

としあきがAI絵の生成に使ってるツールも色々ある。そしてツールによって強弱の構文が異なるのだ。
例えば1111では () が強調1.1倍。
NovelAIでは {} が強調1.05倍。
1111やNovelAIでは重ねて使うと乗算になる。例えば (()) は1.21倍。

1111の強調構文ルールは、誘導→ 特殊なPrompt指定

もっと見る

呪文の中に \(hogehoge\) とか ¥(hogehoge¥) とかあるのって何?

誘導→特殊なPrompt指定#escape_syori

呪文の順序って意味ある?

ある。先頭に近いほど効きやすいとか、距離が互いに近い単語同士は影響を受けやすい(色移りもしやすい)、とか。
(参考) PART3 -プロンプトの工夫で指定色が混ざるのを防ぐ方法- - Defblog(デフブログ)
もっとも、後ろの方でも十分効きやすい単語もあるし、強調構文(下記参照)で調整する方法もある。
 誘導→呪文の () と {} って何が違うのさ?

呪文に使う半角スペースとアンダーバーってどっちがいい?

基本的に半角スペース。例: upper body, hair ribbon,
なぜなら現在のモデルの大半が半角スペースを使った単語で学習しているから
(逆に言うと、初期にはアンダーバーを用いた素のdanbooru語で学習していたモデルもあった)。
また現在でも半角スペースではなくハイフンで繋ぐ形の単語が一部に存在する。例: see-through, one-piece swimsuit,
ともあれ、1111を利用している場合は拡張機能Booru tag autocompletionを導入してオートコンプリート機能を利用するのが手っ取り早い。

他の人のネガティブにEasyNegative, って入ってるけどこれ何?

その単語は通常のネガティブではない。有名なネガティブTIの名称だね。該当するファイル名のTIの効果を得るために書いてあるんだ。
DezgoやNovelAIでは、それを真似てEasyNegative, とか入力しても同じ効果は得られない。
配布元から対象のファイルをDLして、1111とかで指定の場所に導入。
その上でプロンプトやネガティブにファイル名を書く(🎴から選んでも良い)。
この手順を踏むことで初めて効果を発揮する。

主なネガティブTI

主なネガティブTI
 誘導→配布物/Textual Inversion

TIなので stable-diffusion-webui\embeddings に突っ込んで🎴から利用する。
ただしネガティブTIだから、プロンプト欄ではなくネガティブ欄に挿入しよう。
画風への影響も強いので強弱を調整して使うことも検討してほしい。
どんどん併用すればするほどいい…ってものでもない。
例えばInpaintで手指ガチャする時だけbad_promptを利用する人もいる。

(参考) bad_promptを作った人による、ネガティブTI製作手法のメモ
https://www.reddit.com/r/StableDiffusion/comments/yy2i5a/i_created_a_negative_embedding_textual_inversion/

特定の行為をするように呪文を入れてもなかなかしてくれません…

モデルによって表現に得意不得意があります。
Civitai等に特定の行為に特化したモデルがあるので、普段使っているモデルとマージして新しいモデルを作るのもいいかもしれません。
 誘導→Checkpoint Merger
 誘導→モデルについて#f2ec2f11

色移りして困っちゃう/他の人の呪文にあるBREAKって何?

誘導→特殊なPrompt指定#BREAK

※リンク先のページは、Stable Diffusion web UI向けのページです。

基本的なパラメータ

Seedって何?

誘導→Seed

step数はどれくらいがいい?

モデルとサンプラーにもよるけど、基本的にはあんま増やしても頭打ち感が強くなる。
ステップ数のグラフ
スレでよく利用されているのは15~50、その中でも20の人が多い。1111のデフォルト値でもあるしね。
画像サイズもそうだけど、step数も生成の所要時間に大きく影響する。

sampler(サンプラー)はどれがいいの? (txt2img/img2img)

🐍(訳: わからん…それは人それぞれ違うからだ。)
優劣をつけるのは難しいが、特徴はあるので、好みで選ぼう。

  • スレ民の印象は、だいたいこんな感じでした。(2023/8月頃)
    • 高速安定 → Euler a
    • 高画質 → SDE karras系
    • なにか物足りない → それ以外
  • ざっくり経緯として、
    Euler aが結構初期(2022年頃)からあるのに対し、
    SDE karras系は様々な派生Ver.があり、2023/8月にも新たなsamplerが登場している。
  • sampler派生の経緯や、検証結果も踏まえてsampler選択をしたい人は、
    下記のページが参考になる。

参考ページ

(1111)Clip skipの値はいくつがオススメ?

誘導→Clip skip

モデル・VAE

  • モデルってなんですか?

 誘導→モデルについて#モデルってなんですか?

  • おすすめのモデルはどれ?

 誘導→モデル紹介

  • 拡張子が色々あるけど、どれを選べば良いの?
  • 同じモデルでも複数(fp16,fp32,pruned)あるけどどれがいいの?

 誘導→モデルについて#w36fb95b

  • モデルデータをDLしたんだけど、どこに置けばいいの?
  • (1111)モデルデータを指定の場所に入れたのにcheckpointリストに表示されない!
  • (NMKD)モデルリストに.safetensors形式のモデルが表示されないんだけど?
  • モデルデータを軽量化する方法
  • 追加のモデルフォルダを指定する/モデルフォルダだけSSDに置く/シンボリックリンクの作成方法
  • モデルファイルのトークン破損チェックと修正方法

 誘導→モデルについて#モデルに関するよくある質問

  • 生成した画像の色が薄いんだけど…
  • VAEの設定方法がわかんない

 誘導→VAE

画像生成

顔面が崩壊して怖い!どうすればいいですか?

基本的にAI絵はその仕組み上、細かな部分の描写が苦手で崩れがち。小さな手、小さな目、小さな顔など。
対策はいくつかある。

Detection Detailerの使用例
  • upper body, またはportrait, などの単語を使って上半身にズームした構図にする
  • 根本的に画像サイズを大きくする。後述するHires.fixを、数値を調整しながら利用するのがおすすめ
  • 実写系の場合は、Restore faces(顔の修復)をONにするのも良いかも。ただし二次絵には向かない
  • CFGスケールの数値を下げて呪文の影響を弱める。
  • Inpaintで修正する。この時Inpaint area=Only maskedを選択し、pixels=32の値を調整する。数値を上げすぎるとWhole pictureと同じ結果になってしまうので、様子を見ながら上げ下げしてほしい
  • 拡張機能Detection Detailerを利用する。左の画像参照。
     誘導→Extensions#Detection Detailer

画像がぼやけるんだけど誰か理由と解決策わかる?

様々な原因が考えられるから必ず画像を貼れ、メタデータ付きのだぞ
エスパーレスすると

  • プロンプトもしくはネガティブの数が多すぎる、または強調が強すぎる
    断舎離する、強弱を調整する
  • 過学習、あるいはLoRAの適用強度が強すぎる
    <lora:hogehoge:0.5>とかに弱めてみる
  • (Hires.fixまたはimg2imgを使ってる場合)Denoising strengthの値が小さすぎる
    0.55とか0.6とかで試す

手の指が崩れる。どうすればいいですか?

  • ネガティブプロンプトやネガティブTIを試す
  • 手の部分をInpaintして、上手くいくまで何度も試す
  • 小さい部分は潰れがち・崩れがちになるので、Hires.fixやimg2imgで画像サイズを大きくする
  • ControlNetのcannyやscribbleを利用して指の線画をAIに提示する

など

暗い画像が作れない!

  • StableDiffsionのノイズ画像が明るいので基本的には暗い画像は作りにくいです。
  • 下記のような黒いノイズ画像を用意してimg2imgを使って書かせれば暗い雰囲気の画像をつくれます。
    black_noize.png
  • 他にも暗い画像専用LoRAもあります。
    (例) https://civitai.com/models/48139/lowra

○○ってモザイク修正要る? ××は? △△は?

ちょっとでも迷ったら全部修正するに限るよ

としあき…としあきや…

迷うくらいならモザイク修正かけておしまい…

ぶっちゃけモザイクって具体的なガイドラインとかなくて全部警察の裁量次第だからなマジで

ヤバそうと思ったら全部修正しとくのが無難

拡張機能

wd14-taggerでExclude tagsにタグを入力しているのに除外されていない

複数単語で構成されているようなタグは元のアンダーバーも入力する
✕ganyu (genshin impact),
〇ganyu_(genshin_impact),

その他

何か良い画像ビューワーない?

としあき達のオススメはIrfanView。
https://forest.watch.impress.co.jp/library/software/irfanview/

AI絵を投稿するのにいいサイトある? 渋以外に

 誘導 → AIイラスト投稿可能なサイト

1111特有の話題

PNG InfoからSend toすると、モデルが自動で切り替わって重いっす

Settings → User interface → When reading generation parameters~
にチェックを入れると、Send toしてもモデルが自動切り替えされなくなる。

画像の生成をずっと続けるのってどうやるんだっけ

 Generate ボタンの上で右クリックしてGenerate foreverを選択。
止めたい時は同様に右クリしてCancel generate foreverを選択し、必要ならInterruptボタンを押す。
注意: Generate foreverを始める前に、Seed=-1 になってることを確認しておくんだぞ…
でないと1ループが終わる度に同じSeed値に巻き戻って、同じ画像が量産されてしまうからな…
あと途中でプロンプトや設定に変更を加えた場合は、次のループから反映されるよ。

知らん間にClip skipの値が1になってた

画像の埋め込み情報にClip skipやENSD(Eta noise seed delta)等も含まれてる。
Send toボタンを押すと、その瞬間に1111の設定が書き換わるので注意。
1111の機能改良により、上書きはされなくなった。
代わりにtxt2imgやimg2imgの左下辺りにOverride settingsとして表示され、一時的に適用される。
Quicksettings listに「CLIP_stop_at_last_layers, 」を書き足すと、画面上部に常時表示されるので、確認が楽。

大きな画像生成についてもっと教えて?

大別すると、以下の4つの方法がある

(a)直出し。普通にwidthとheightを大きく指定する(崩れがち)

(a)直出し。普通にwidthとheightを大きく指定する(崩れがち)
単純にVRAMが許す限りの大きなサイズを指定しよう…とはいかない。
Widthを大きくすると複数人が描かれやすくなる。
Heightを大きくすると身体が崩れやすくなる。
これはモデルが学習に使用した画像のサイズによって、モデル毎にサイズの得意・不得意があるからだ。
一般的に768x768くらいまでは破綻が起きにくいが、それよりも大きなサイズを指定すると破綻し易くなる。
破綻を回避しつつ大きなサイズの画像を出力するには、Hires.fix、img2img、Extrasなどの機能を利用すると良い。
とはいえ、打率は低いものの単純な直出しでも上手く生成できることもあり、中にはそれを好む人もいる。

(b)Hires.fixをONにして生成する(精細だけど遅い)

(b)Hires.fixをONにして生成する(精細だけど遅い)
工程を2段階に分けることで構図の破綻を抑えよう…という1111の機能。
まず1段階目は、モデルが得意とするサイズで普通に生成する。
次にその画像に補正をかけつつ拡大する。
さらにその結果を元画像にしてimg2imgを行う。これが2段階目。
描き込みの精細さに人気がある。破綻防止はそこそこ。
Denoising strength(ノイズ除去強度)の値が重要で、小さいほど1段階目に忠実になるが、同時にぼやけがちになる。
値が大きければ精細になるが、元画像からの乖離も大きくなる。
適正値は拡大率や好みによっても変わるが、x1.5~2.0の場合おおよそ0.55~0.6くらいだろうか。

Upscalerは10種類以上あり、どれを選択するかによっても画像の雰囲気が多少変わってくる。
画像の基本的な部分は同じなので、その時の好みに応じて使い分けよう。
参考記事(現在は更に種類が増えている)

(c)元になる画像を、img2imgを使って拡大する(やや遅い)

(c)元になる画像を、img2imgを使って拡大する(やや遅い)
i2i、稀にいもげいもげとも呼ばれる。
元となる画像を指定する点が、txt2imgとの最大の違い。
AIに具体的な参考画像を与えるので、モデルが不得意とするサイズでも構図が破綻しにくい。
1111のデフォルト設定では、step数を指定よりも多少省く挙動になっているので、Hires.fixよりは高速。

生成中のコマンドプロンプト画面を見ると分かるのだが、steps20等を指定しても、11とか13とか、指定より少ないstep数で計算する仕組みになっている。
おおよそ step数×Denoising strength くらいの値。
いや物足りねーよ、って人はそれを加味して大きめのstep数を入力してもいい。
またSettingsには、指定通りのstep数でi2iさせるためのオプションがある。
Settings → Stable Diffusion → With img2img, do exactly the amount of steps~

(d)元になる画像を、Extrasタブを使って拡大する(忠実かつ高速)

(d)元になる画像を、Extrasタブを使って拡大する(忠実かつ高速)
いわゆるアップスケーラー。元画像に対し、補正をかけつつ拡大する機能。
画像編集ソフトの拡大機能的なやつ。
Upscalerの指定次第で、補正処理の内容や計算時間が変わる。
基本的に(a)(b)(c)より遥かに高速。
描き込みの精細さや、線の太さ等で好みが分かれるところ。

GFPGANとCodeFormerの数値を上げると、美肌アプリのように顔を綺麗に補正してくれる。
やりすぎると別人みたいになるので、少しだけ上げるのが良い感じ。
参考記事

体や背景が見切れている時はどうするといいですか?

「Outpainting mk2」または「Poor man's outpainting」を使用することで、画面外のものを新たに生成できます。
どちらを使うと効果的かは、画像の状態や何をどのように拡大するかによっても変わってきますので、両方試して比べてみましょう。
下半身など見切れている範囲が大きい場合、実写系はInpainting用モデルを使うと体がより綺麗に生成されやすい傾向(二次絵系は未検証)。
ちなみに、SDではなく自分で描いたり撮ったりしたイラストや写真の画像でも有効で、それらを拡大するという応用の仕方もあります。

img2imgの一番下のスクリプトから選択して、拡大するピクセル数や方向を設定します。
一度の処理で拡大できるピクセル数は最大256pxで、初期値は128pxです。数値によって拡大で現れる物体の形状や人のポーズが変化します。
方向は初期状態では上下左右にチェックがあり、一度の処理で全方向が拡大されます。特定の方向を拡大させたい時はそこだけチェックします。
Send to img2img(img2imgに転送)を繰り返したり、必要に応じて呪文を入れたりして少しずつ拡大させていきましょう。
また、Inpaintと併用して拡大・修正するのがとても効果的です。その際はスクリプトのオン・オフを忘れずに。

注意点としては、元画像のピクセル数があまりにも大きい場合は処理がとても遅い上に、あまり拡大されていない生成画像になってしまいます。
事前にInpaintの真ん中付近の「Resize by」やGIMPなどで縮小した画像を使用するのがおすすめです。

Quicksettingsに利用できる名前がわかんない

Settings → User interface → Quicksettings
よく利用される項目名をいくつか紹介する。
好きな順序で選んでいい。順序も表示に反映される。

sd_model_checkpointモデルファイルの切替。デフォルトで書いてある
sd_vaeVAEファイルの切替
CLIP_stop_at_last_layersClip skipの値
eta_noise_seed_deltaENSD(Eta noise seed delta)の値。昔31337が定番だったやつ
sd_hypernetworkHNファイルの指定
sd_loraLoRAファイルの指定
sd_hypernetwork_strengthsHNを適用する強さ。↓に転生した
extra_networks_default_multipliersHNとLoRAを適用する強さ(共通)
grid_save☑Always save all generated image grids
グリッド画像を自動保存するかどうか
token_merging_ratioToMeの適用強度。0を指定するとToMeが無効になる

名前は modules\shared.py の中身を覗いて探す。
拡張機能の分は
extensions\(拡張名)\scripts
extensions-builtin\(拡張名)\scripts とかにもあったりする。
調べるのが面倒くさかったらSettingsで変更してApply settingを押すと
すぐ下に「1 settings changed: hoge_hoge.」みたいな感じで出る。
こんな感じ→ 1 settings changed

開いた時のデフォルトの数値を変えたい!よく使う呪文を最初から表示したい!

v1.3.0以降の1111なら、Settings → Defaults のページを利用するのが手っ取り早い。

settings_defaults.png

例えばtxt2imgのWidthやらBatch countやらの値を変更した後、
Settings → Defaults を開いてView changesボタンを押す。
すると「おめーここ変更しただろ」という感じで変更箇所がリストアップされる。
Applyを押すと、それらの内容がui-config.jsonに書き込まれる。
その後、右上のReload UIボタンを利用して一度webUI(ブラウザページ)を再読み込みすることをオススメする。

昔ながらの方法

昔ながらの方法
フォルダにあるui-config.jsonをメモ帳で開いて、各項目の数値を書き換えることができます。

"txt2img/Prompt/value": ""
"txt2img/Negative prompt/value": ""
"img2img/Prompt/value": ""
"img2img/Negative prompt/value": ""
それぞれの""の中に呪文を記述すると表示されます。

その他参考になりそうな項目
基本的にtxt2imgのもの。img2imgの物はui-config.jsonの中を下にスクロールすればすぐに見つかるので省略。

デフォルト値
txt2img/Sampling method/valueサンプラーDPM++ 2M Karras
txt2img/Sampling steps/valueステップ数20
txt2img/Width/step画像サイズのスライダー刻み幅8
txt2img/Height/step8
txt2img/Batch count/maximum画像生成の繰り返し回数の上限100
txt2img/Batch size/maximum画像の同時生成枚数の上限8
txt2img/CFG Scale/valueプロンプトの効かせ具合7.0
txt2img/Hires steps/valueHires.fixの2段階目のステップ数0
txt2img/Denoising strength/valueHires.fixのノイズ除去強さ0.7
txt2img/Denoising strength/step↑のスライダー刻み幅0.01
txt2img/Upscale by/valueHires.fixの拡大率2.0
img2img/Denoising strength/valueimg2imgのノイズ除去強さ0.75
customscript/postprocessing_upscale.py/extras/Resize/valueExtrasタブの拡大率4

※上記はv1.6.0現在(2023/9/17)のデフォルト値。
1111のアプデにより変更される可能性があり、実際に何度か変更されています。

画像生成の完了時に通知音とか出せないかな?

まず鳴らしたい音をmp3形式で用意する。
例: filefu1813724.mp3
次にそれをnotification.mp3にリネームして1111のフォルダに突っ込む。
反映には1111のReload UIか、もしくは1111の再起動が必要かもしんない。
でも音量調整がページ毎じゃなくてブラウザ丸ごとなんだよね…。つべとかの音量まで上下しちゃう。
だから何らかの編集ソフトを使って、mp3ファイルの音量自体を調整して保存し直すのが望ましい。
Web会議中にポーン♪って鳴らしたとしあきもいるからみんなも気をつけようね。

あとSettings → Actions → Request browser notifications
でWindows 右下の通知機能をONにできる。
解除したい時はブラウザのURL欄左端の(i)のとこからたぶん行けると思う。

グリッド画像の生成が時間かかるしいらない

以下2つの設定をすることで生成しないようにできる。

  • 保存無効(保存無効にするとX/Y/Z plot等の比較画像は手動で保存が必要になるので注意)
     タブ「Settings」→(左メニュー)「Saving images/grids」の「Always save all generated image grids」のチェックを外す。
  • 表示無効
     タブ「Settings」→(左メニュー)「User interface」の「Show grid in results for web」のチェックを外す。

VRAM消費量、多くない?

webui-user.batを実行しただけでVRAMを数GB使うのは正常?

おそらく正常。
webui-user.bat直後は、主にモデル(checkpoint)をVRAMに格納するため。
web-UIの最新化により改善する場合がある。
VRAM消費削減のオプション(--medvram等)で多少解決するけど、生成速度低下や安定性低下の原因になるため、実害がないなら放置すること。

画像生成を終えた後も、VRAM占有率がまったく減らないのは正常?

  • おそらく正常。
    Settingsで「Keep models in VRAM」にしているから。
    web-UIの最新化により改善する場合がある。
    VRAM消費削減のオプション(--medvram等)で多少解決するけど、生成速度低下や安定性低下の原因になるため、実害がないなら放置すること。
  • バグの可能性もある。

pngに埋め込む情報について

pngに埋め込むmodelハッシュってmodel名にはできないですか?

SettingsInfotext → Add model name to generation information
こいつをONにすればモデル名が記載されるようになる。
1111のデフォルト設定でONになっているが、大昔の1111には無かった項目なので、設定をその頃から引き継いでいるユーザーはOFFのままになっている場合がある。もちろん好み次第なので任意にOFFにしているユーザーもいる。

1111更新によるUIの変化

アップデートしたらHistory/Image Browserが無くなった

拡張機能になりました。
使用したい場合は Extensions タブから導入してください。

手動で導入する場合

stable-diffusion-webui/extensions フォルダ内で下記のコマンドを実行すればインストールできます。

git clone https://github.com/yfszzx/stable-diffusion-webui-images-browser

モデルのハッシュ値が前と違くね?

2023年1月頃の更新で変更がありました。
前のハッシュ値は短くて、マージ技術の登場以降はよく被ってたしね。
古い画像に埋め込まれたハッシュ値から使用モデルを探りたい時は、そのハッシュ値でググると参考になるかも。

画像生成中にプレビューが出るようになった

プレビューをOFFにする方法

2023年1月頃の更新からそれがデフォルトになりました。
ただ画像生成速度が結構遅くなったり、VRAM消費量が増えたりといった影響もある様子。
環境や好みによってはOFFにする方がいいかも。
Settings → Live previews → Show live previews of the created image
Live previewsの設定次第では、プレビューをONにしつつ、生成速度やVRAM消費量への影響を少なく抑えることも可能かもしれない。

Hires.fixのUIがガラッと変わってる! 前の方が好きだった

Settings → Compatibility → For hires fix, use width/height sliders to ~
にチェックを入れると、前の仕組みに近くなる。
具体的には「最終サイズだけ指定するから、あとは1111君がテキトーにやってよ」という形になる。初期サイズと拡大率を考えなくていい。

更新したら画面上部にあったHNの強さスライダーが消えた

ああQuicksettingsのsd_hypernetwork_strengthのことか。奴さん死んだよ。
ていうかLoRAにも対応したことで名前が変わって、extra_networks_default_multiplierになった。

整理すると、次の3つの方法がある。好みに合わせて選んでほしい。

  • (方法A)LoRAタブを使う。最も主流な方法。
  • (方法B)Quicksettingsを利用する。
    Settings → User interface → Quicksettingsに下記の3つを書き足す。好きな順序でOK。
    sd_hypernetwork, sd_lora, extra_networks_default_multiplier,
    画面上部の Apply settings を押し、次に Reload UI も押す。
  • (方法C)拡張機能: Kohya-ss Additional Networksを導入する。
    導入に成功すると、txt2imgやimg2imgの左下、Scriptの上辺りに Additional Networks のパネルが追加される。

LoRA(画像生成編)

保存したLoRAの使い方がわかんない

  1. \models\Lora にLoRAファイルを突っ込む。
    (最近の1111は起動時に該当フォルダを作る仕組みになってる。フォルダが無ければ、かなり古い1111を使ってるということ)
  2. 1111のLoRAタブを開く。無かったら1111がかなり古いので、更新が必要。
  3. LoRAタブの中に目的のLoRAファイルがあるはず。見当たらなかったらRefreshを押してみる。
    クリックするとプロンプトに<lora:hogehoge:1>みたいな記述が挿入される。
  4. さらにプロンプトにそのLoRAのためのトリガーワードや推奨タグを書き足す。
    配布元のサイトがCivitaiにせよHugging Faceにせよ、大抵は説明が書いてあるのでちゃんと読もう。
    単純にファイル名丸ごと、もしくはファイル名の一部がトリガーワードになってる場合もある。
    サンプル画像があるならそれをPNG Infoにかけて参考にしよう。

LoRAの効果が全く出ない

  • 1111を利用しているなら、コンソール画面(白黒画面)に何らかのエラーメッセージが表示されていないか確認しよう。
  • <lora:hogehoge:1>の他にトリガーワードもちゃんと書き足しただろうか?
  • 別のモデルで試してみる。モデルとの相性があり得る。
    • 配布元のページ、またはLoRAファイルのメタデータを覗く等の方法で、ベースモデル(学習のベースに利用されたモデル)を確認する。
      Aというモデルをベースに学習したLoRAなら、Aや、Aに類似したモデルでは効果を得やすい。
    • ベースモデルの系列を確認する。SD1.x、SD2.x、SDXLという3つの系列の内のどれをベースに学習したLoRAなのか。
      他の系列に対しては効果を得られなかったり、そもそも選択リストに表示されない場合もある。
  • 品質系プロンプト、ネガティブ、ネガティブTI等による影響の可能性。
    • プロンプトの((masterpiece)), (((best quality))), ((ultra-detailed)),とかが邪魔してる可能性があるので、断捨離してみる。
    • ネガティブの(worst quality:1.4), (low quality:1.4), (monochrome:1.1),とかが邪魔してる可能性があるので、断捨離してみる。
    • EasyNegative等のネガティブTIを利用しているなら、断捨離してみる。

キャラLoRAやポーズLoRAなのに画風がめっちゃ影響を受けちゃう

  • <lora:hogehoge:1> の強弱を変更する。Ctrl+↑↓でもいいし、数値を書き換えてもいい。
    0.8とか0.6みたいに加減してみてください。配布元のページに推奨値が書いてあることもよくあるよ。
    • 強度(weight)のデフォルト値は下記の設定からできます。
      SettingsExtra Networks → Multiplier for extra networks
      1だと強すぎる場合が多いので少し弱めな数値を設定しておくと調整楽かも。
  • 画風まで学習しちゃってるLoRAだとか、そういう画風を想定して作成されたLoRAという可能性もあるので、ある程度諦めも肝心。
  • LBW(LoRA Block Weight)を利用するという手もある。
    階層毎に適用強度を指定できるので、LoRAの中の、自分が欲しい要素に焦点を当てて利用できる可能性がある。

LoRAタブ等のサムネが大きい/小さい/フォントでかい

SettingsExtra Networks にて、モデルカードの表示サイズやテキストのサイズを変更できる。

extra_cards_size.png

LoRAタブとかのサムネ画像ってどうやって変えるの?

下の表を参考に、自分で画像を置くのがオススメ。

種類場所学習ファイル名の例サムネ画像の命名規則
LoRA\models\Lorahogehoge.safetensorshogehoge.png
HN\models\hypernetworkshogehoge.pthogehoge.png
TI\embeddingshogehoge.pthogehoge.preview.png

1111起動中にサムネ画像を置いたり変更した場合は、Refreshボタンを押すと表示が更新されるよ。
なおサムネ画像はpng/jpg/webp形式に対応(2023/3/12以降)。

別の方法もある。

  1. まず画像を生成し、画面右下のギャラリーから選択してオレンジ枠の状態にしておく。
  2. 次にLoRAタブ等から目的の学習ファイルにマウスカーソルを合わせ、🛠[Edit metadeta]を押す。
  3. 「Replace preview」を押す。

    (既知の不具合)
     不具合issues#v1.6.0でExtra Networksのプレビューにグリッド画像が適用されてしまう

LoRAの数が沢山あって管理がしんどいっす

  • 拡張機能Civitai Helperを使おうぜ!
     誘導→Extensions#Civitai Helper
  • 自分で(Windowsのエクスプローラーで)フォルダを作って階層分けすると、1111のLoRAタブの表示もこんな感じになるから整理に便利だよ。
    LoRAのフォルダ分け

各LoRAのトリガーワードや推奨weightを管理する良い方法ない?

1111(v1.5.0以降)ユーザーなら🛠[Edit metadata]を押せ!
LoRA_Edit_metadata_1.png

LoRA_Edit_metadata_2.jpg

LoRAのメタデータに学習時のパラメータやコメント等が埋め込まれていれば、その内容も表示される。

  • Description(説明)欄は単純にメモとして利用しても良いが、ここに記入した内容はモデルカード(サムネ)にも表示される。
    表示したくない場合は、SettingsExtra Networks → Show description on card をOFFにしよう。
  • Activation textにはトリガーワードや推奨プロンプトを記入して利用する。
    ここに記入した内容は、モデルカードをクリックした際に、<LoRA:hogehoge:1>などと一緒に自動挿入される。
    LoRA作者からの説明があるならまずはそれに従おう。メタデータに学習タグの情報が残っている場合は、そこからクリックして追加することもできる。
  • Preferred weightは、デフォルトのweight(適用強度)を設定するスライダー。例えば0.8に変更すると、次回以降<LoRA:hogehoge:0.8>が挿入されるようになる。
  • 変更後に「Save」を押して、変更内容を保存すること。保存前に編集画面の外をクリックすると、保存されないまま編集画面が閉じられて変更内容がパーになる、なった。「保存していない変更内容は破棄されます。本当に閉じてよろしいですか?」などという確認ダイアログは出てこないので、こまめに保存する方がいいぜ!

LoRAが適用されない、適用するとエラーが出る

2023/5/14(?)の更新でLoRAの読み込み仕様が変更された。
その場合は以下のように元の動作に変更することで解決する可能性がある。

Settings → Compatibility → 「Lora: use old method ~」にチェック

LyCORISの場合は合わせて、拡張機能をa1111-sd-webui-loconからa1111-sd-webui-lycorisに移行する。a1111-sd-webui-lycoris
a1111-sd-webui-loconは開発が終了し最新版のwebuiには対応していない。


短縮URL生成

https://wikiwiki.jp/sd_toshiaki/-s/05ed8846

*1 原因はソフト黎明期であるがゆえの問題。例外として、グラボ系(昔からあるトラブル)、クラウドサービス系(システム上類似のトラブルが発生しやすい)は、エラーが画一的または情報が多いので比較的アドバイスしやすい領域ではあります
*2 RTX4070Ti,ローカル版導入コメント欄より