概要
その名の通りLLM(大規模言語モデル)のフロントエンド なのだが、
2025年12月 Z-Image-Turboによる画像生成に対応した。
ローカルLLM用のフロントエンドで、Stable Diffusion web UIにインスパイアされて開発したとある通り、とても拡張性が高い。
VOICEVOXその他のTTS(読み上げソフト)と連携する拡張機能もあるので、
マルチモーダルLLMにアレな画像を見せつけながらボイチャっぽいことをしたりもできる。
一般論としてまともな会話ができるLLMはSDXLモデル等より重いので、
現在の環境だと相応のハイエンドGPUが必要になるが。。
(CopilotやGeminiはローカル推論ではなくリモートAPIコール)
あと、非常にとっつきにくい。
ComfyUI-Managerみたいな便利ツールもないので、
拡張機能のセットアップなんかは毎回黒い画面でカタカタやることになる。
画像生成
https://github.com/oobabooga/text-generation-webui/wiki/Image-Generation-Tutorial
Text Generation Web UIを自力でセットアップできる人ならそんなに手間取らないだろうし、
v3.22の段階ではLLMやAPIサーバーを必要としない人が使うほど機能が充実していないのでさくっと。
現状対応しているのはZ-Image-Turboぐらい? Qwen-Imageも使える?
Chroma1-HDも試したがFLUX系統ダメなのかそれとも筆者の環境の問題か、CFG=3の30ステップではまともな絵が出なかった。
diffusersでフォルダごと読み込んでいるので、model_index.jsonその他の
パイプライン定義ファイルを含むHuggingfaceリポジトリしか読み込めない。
Civitai等でモデルバラバラに置かれているものは現状読み込み不可。
ということで現状大本の公式モデルぐらいしか読み込めない。
また、ComfyUI等と違って生成結果をデカデカとプレビューするUIなので、
変なものを生成するとダイレクトに精神汚染を食らう危険性が高くやや注意が必要。
量子化はVRAMが切迫していなければ効果は出ないし、おそらくそんな環境だと激遅。
また量子化するとオフロードできなくなる。
通常はせいぜいCPU Offloadを入れる程度でVRAM不足による速度低下は抑えられると思われる。
(そして量子化して耐えるぐらいの環境になると、最適化の度合いは既存の画像生成特化ツールに劣る。
v3.22の段階だとLLM使ってるうちにちょっと画像生成したくなったとき用程度の機能)
APIサーバー機能
AI企業のAPIを呼び出すのではなく、自分でサーバーを立てて(別に外部に公開する必要はない)他のツールから使う機能。
Stable Diffusion web UIとかComfyUIにもある。
https://github.com/oobabooga/text-generation-webui/blob/main/docs/12%20-%20OpenAI%20API.md#image-generation