コメント/学習にまつわる各パラメータ

Last-modified: 2024-04-17 (水) 00:08:09

学習にまつわる各パラメータ

  • 編集おつかれさまです。
    「アルゴリズム」項の実用係数値の定義を教えて欲しいです。私は聞いたことがないパラメータです。
    出処が確かな情報なら、LyCORISページに書くのをおすすめします。その方が各アルゴリズムとの相関を理解しやすくなります。 -- 2023-05-29 (月) 22:50:38
  • LoRA, LoConの学習率の目安の計算式 この部分をチェックしてください。学習率が自動的決めるAdafactor, Dadaptadamなら無視してもいい -- 2023-05-29 (月) 23:33:35
  • 解りやすくて助かる。ありがてェ。 -- 2023-05-31 (水) 22:38:45
  • 「LoRA, LoConの学習率の目安の計算式」にエポック数が抜けてますね。
    計算例を見るに「学習率=(目標学習度/エポック数/総Step数)×各Step毎の学習率係数」でしょうか。もしくは総ステップ数の計算式にエポック数を乗算。 -- 2023-06-01 (木) 07:04:58
    • 修正しました。 -- 2023-06-01 (木) 14:41:36
      • ありがとうございます。 -- 2023-06-02 (金) 13:18:29
  • この二度焼き、三度焼きってのがいまいちわからんのだけど、これは『一回目の時に軸となるckpt/safetensorsファイルを指定した項目』に『一周目の結果出来上がったLoraファイル』を指定すればええのん? どうにもそれらしい設定項目が見当たらなくてのう・・・ -- 2023-06-02 (金) 08:09:34
    • たぶん中断/再開用のステート保存使うんだろうけどスケジューラーのlr低下も引き継ぐからあんまり意味がない気がする -- 2023-06-02 (金) 11:55:39
    • 再開ステートと一周目の結果出来上がったLoraファイル指定、両者それぞれ結果が違うので自身で使い比べてみてください -- 2023-06-02 (金) 19:19:17
  • 1.57*32≈50倍を乗算この計算はどの部分に乗算すればいいのでしょうか -- 2023-06-03 (土) 04:59:03
  • 一応実験してみたんだけど、素材にオープン配布されている東北ずん子を使ったとして、61枚あるので、こいつに対し3000ステップを目標に計算を立てたんだわ。 すると ざっくり60枚×5回×10ep の3000ステップとして、lora(1)×cosine_with_restarts(1.57)×AdamW(1)で、最終的に0.00052つまり5e-4になったわけよ。だがしかし、こいつで学習結果の表を作ると3peもいかないうちに過学習になった。 一方学習係数を ÷ として使うと 0.00021 つまり2e-4 となり こいつは丁度3000付近でいい感じの学習結果となった。 このことから学習係数は ×ではなく ÷として使うのではないかという疑いが出たのだが、どうだろうか。 間違ってたら間違ってたでいいんだが、その場合、俺の例だとどう計算すればよかったのかを教えてくれると助かる。 というかだれかずん子素材を使って計算と経過と結果をやってくれたらありがたいれす・・・ -- 2023-06-04 (日) 20:37:19
    • 一応そういった動画はあるのだが、なんか微妙に同じならんのよなぁ。あっちだと1e-4で上手くいっていたが、同じようにやってもだめで、それで2e-4にしたらいい塩梅になった。 素材が共通して手に入るので数人の実験データを集めて ハローアスカみたいに、ハローずん子でも作れればこの学習も大分わかりやすくなると思う。 -- 2023-06-04 (日) 20:58:38
      • 同じ素材使うにしても学習時のバッチ数も揃えないと同じ結果にはならんよ -- 2023-06-04 (日) 21:57:44
    • バッチ数は?1?unetとtext encoder learning ratingの数値は? -- 2023-06-05 (月) 00:19:04
      • テルルとロビンって動画のずん子学習のやつを参考にして1にしてある。ステータスは動画内で公開されているから基本はあれでいいと思うんだが、同じようにやっても、ある程度の再現性はあるものの動画内の結果のようなレベルの結果には至らなかった。誰でも同じ素材が手に入る以上、共通した状況で複数視点を得られれば色々見えてくるんじゃないかと思ってな。 -- 2023-06-05 (月) 08:54:37
      • たぶんアルゴリズムごとに上限値とかがあるんだろう。推測だけど。 -- 2023-06-05 (月) 14:52:10
  • 学習時のタグのシャッフル機能もあった気がするから、それも反映されてる可能性はなくないかな? -- 2023-06-05 (月) 22:21:56
  • 1.57にしたってことはそれはLORAではなく、DYLORAでやったの?kohya_ssって二つあるよね? -- 2023-06-07 (水) 18:40:23
    • 1.57はアルゴリズムではなくスケジューラーの方よ -- 2023-06-08 (木) 11:39:19
  • 最近思うんだが、キャプションのタグで学べさせたいものは「消去」と記載されてるのが多いが、いろいろテストしてみたが、とりあえずタグを付けトリガーワードを一つ指定して何も消去しない方がモデルの出来がいいんだが。このタグ消去って本当に効果あるものなのか・・・ -- 2023-06-11 (日) 00:24:06
    • 私もテストしてみたが、LRスケジューラーとオプティマイザーの組み合わせで削除する必要がある組み合わせと削除しなくてもいい組み合わせがありそうです。 -- 2023-06-11 (日) 00:42:38
    • キャプションっていうのは提示した学習対象の絵に対して「今回たまたまセーラー服着てるだけだから!! 毎回来てるわけじゃないから!!」という注意書きを添えるようなものだと考えるとわかりやすいぜ。 つまり画像的・・・Uネット的にではなく、文章的・・・テキストエンコーダー的に、Lora学習機能が「じゃあセーラー服は覚えなくていい要素なんだな」と理解し、服の部分はフリー化した状態でその絵を学習する。モデルの出来が良く感じるのはフリー化された部分が多いから、その分Loraモデルに対してその分ckptモデルが介入しやすく、補正を受けやすいってことよ。 だから出来が良く見える。 -- 2023-06-11 (日) 09:50:14
  • 一つ分かったことがあって、ツートンカラーの入ってる髪色があった場合は、two-tone hairとかのタグが入ってるっぽいけど、これはタグは残した方が確実に学習してた。複雑なキャラや明確にその「装飾品」の名前がなかったりする場合は残した方が学習が進んでた。例えば、耳の近くの装飾品はピアスなのただの装飾品なのかご認識?みたいなのする時もあるからその時はタグを消去しないでそのまんまやった方が綺麗に仕上がってた。結局のところ、このタグは簡単なキャラだったら使えるとは思うけど装飾品が多いキャラとかには微妙という結論に至った(自分の中で) -- 2023-06-11 (日) 15:05:25
    • それって、呼び出しの際にピアスとかツートンカラーってプロンプトに入れるやつじゃね? キャプションに残したやつはプロンプトに「書き込まないと出てこない」って法則に何度か出くわしている。拾ったベロニカのモデルとかはメタデータキャプションとして入っている赤い帽子とかを描き込まない限りは帽子をかぶらないで出てきたりするしな。ようするに「今回たまたまピアスなだけだから!!」→「でも今回もピアスな!!!」って扱いになるんではなかろうか。ということは「学習されていない」わけではなく「学習自体はされているが、指定されない限り出てこないようロックされる」ようになってるってことか。 -- 2023-06-12 (月) 22:35:01
  • そうではなくて、学習させる際にはツートンカラーはそのまんま残し、消去しないで、学習が終わった時にプロンプトでその単語を入れて反映させた方が綺麗だったってことです。学習画像によっては消さない方が良いものもあるってのが実験の中でよかった。このツートンカラーのタグを消去して学習させて、プロンプトに入力しても一切その色にならなかった。だけど、残したら消去した時以上に良い感じに描画してくれたってことです。 -- 2023-06-13 (火) 03:34:03
    • おう。そう言ってるのだぜ。言い方がわかりにくくてすまんな。「キャプションに入れたタグに該当する部分は自動的な発動にロックが掛かり、そのタグをプロンプトに書き込まない限りちゃんと出てこなくなるが、逆に言うとプロンプトとして書き込むことでロックが外れてしっかり出てくるようになる」って話な。よそに転がっているモデルをこの法則前提で扱ってみると、ぴったり当てはまるのよ。そしてまさに、プロンプトにツートンカラーを入れることでロックが外れてツートンカラーが出てきただろ? 『それって、呼び出しの際にピアスとかツートンカラーってプロンプトに入れるやつじゃね?』ってそのことを言いたかったんよ・・・ -- 2023-06-13 (火) 21:57:07
  • 追記、このタグに関しては、コミュニティでも残した方が学習が良いという情報もいくつかあるから、絶対に消去した方がいいという確実な根拠がない以上思考錯誤していくしかないのかなと。 -- 2023-06-13 (火) 03:35:48
  • Shuffle captionで精度落ちるならキャラに関係のない要素の不要タグがあるだけじゃないの -- 2023-06-15 (木) 23:16:57
    • 不要なキャプションが残ってる、キャラ固定用のキャプションが設定されてない、補助に役立つ頻出キャプションが残ってない(例えば上のツートンカラーの例のような)あたりが原因かなぁ。学習ツールオプションの先頭から指定数のキャプションはシャッフルしない選択は昔から使われてるしそれで不都合ないし、多分シャッフルとは別の部分に問題がありそう -- 2023-06-16 (金) 10:06:17
  • 精度で行くなら呼び出し時のスケールも大きく関わってくるよ。低いほど学習したままのやつが出てくる。過学習気味であるほど低くてもはっきりと出てくる一方、高くするとノイズ焼けする。なぜスケールを低くした方がいいかっていうと、高くするほどにckptが持っているUネット的要素が混ざり込もうとしてくるから、せっかく学習させたこっちのUネット的要素に変化が出てしまうためだ。トリガーワードオンリーでスケール/seed表とか出してみると良い。大体4ぐらいではっきりと出てくるようなキャラ学習Loraが柔軟性があり、かつキャラもしっかりと学習されている優等生なモデルだ。ただし、毎回ガッツリポーズまでこっちで決めて素体用意して使うってならスケール1とか2でもはっきり出てくるぐらいの過学習でいいかもしれない。その方がキャラクターの呼び出しは安定する。その代わりスケールが低いほど画風の補正は得られないので学習画像を揃える段階ですでにキャラクターの絵を満足のいくレベルの絵まで仕上げておく必要がある。自作キャラの自分で描いた絵のLoraとかで、ある程度ckpt側の持っている絵の補正を受けたいのならやはり4ぐらいだな。そいつで補正を受けた絵を50枚ぐらい出して改めて焦点2ぐらいのキャラLora作って使えば3dで素体作った素体絵をまるっと自キャラに置き換えられるような環境になる。仮に漫画とか作るレベルでのキャラ統一性とポーズに対する侍従性を求めるならこういう感じやな。 -- 2023-06-18 (日) 09:56:46
  • Loraやってるとつい忘れがちになるが、もっと基礎的な、呼び出し方でもかなり変わってくるので一度そっちに立ち返るのも大事だぜ。 呼び出し方を間違えている状態で「あれれ、上手く学習できないなぁ」ってやっててもエンドレス沼からは抜け出せんのじゃ・・・ -- 2023-06-18 (日) 09:59:12
  • ためにはなりそうな話ではあるけど、どれも確実な「根拠」がなさそうなんだよなぁ・・・ -- 2023-06-18 (日) 10:56:44
  • 例えばだけど、本当に学習を人に教えたいのであればその学習画像(セット)を公開、パラメータ、タグなど全部公開してやっと、あー、なるほどね。こういうのでこんな感じの結果になるんだってなるけど。ずっと色々見てきたが、じゃ画像20~30枚集めて、ただ回せってことしか書いてないからそれは誰が見ても、ん~?しかならいんだよな~= -- 2023-06-18 (日) 11:17:50
    • 学習素材上げるには画像の著作権などがある。あと誰かが役立てられるように記録を残してるだけであってお前に教えるために書いてあるじゃない。テストデータがあってもお前の持つ画像で似た結果になるかはわからない以上自分で回して都度確認しろとしか言えない。 -- 2023-06-18 (日) 15:32:46
    • wikiはいろんな人が見るサイトであり、編集する体力のある人の意見に扇動されやすくなるので、書く側も神経を使います。ブログほど曖昧な情報はかけない。せっかく詳細の情報提供してもおま環扱いされるのは嫌かな。
      「自分はこうだった」って意見をTwitterでもブログにでも呟いてくれれば、母数が増えて、自然とwikiもそれらの情報を拾って、平均解が記載されるようになると思うよ。単に現状はそこに至るほど多くの人は使いこなせていない&共有できていないだけ。
      ちなみに、ここはパラメータの定義解説の意味合いが強いのでどのみちここには記載されない。パラメータ最適値の話は、ここのコメント欄に有用な情報が記載されれば本文にも反映されるかも。 -- 2023-06-18 (日) 16:45:53
  • だからこそこの話をしてるのです。著作権的な問題あるなら、とりあえずフリー素材のキャラもたくさんあるしそれを使って解説していけばいいんじゃないかな。それこそ情報提供できるwikiなんだと思うよ。特にこういった機械学習はいくら言葉で説明したところでもっと具体的に書いていった方がためになるんじゃないのかって話だけ。 -- 2023-06-18 (日) 17:11:39
    • じゃあ、はい。  つ[https://www.youtube.com/watch?v=N1tXVR9lplM&t=469s]  配布されている素材セットを使って1からやり方を紹介している動画。ご注文通りの具体的なやり方がここにあるわけだが、こういうことでいい? キャラは東北ずん子で、素材も公式配布されているものだから全員全く同じ条件で手を付けられるよ。 まずはこいつで動画の通りにやってみるといい。最初の躓きどころは「動画通りに作ったのに動画と同じ結果を出せない!!なんかこう・・・しょぼい!!!」から始まる。原因は「Loraはちゃんとできている。呼び出し方が悪い」だ。呼び出し方についてはちびたいに転がってるモデルとその配布ページに貼ってある作者の作例絵をクリックすると呼び出し時のメタデータが出てくるからそいつを参考にして何種類かのLoraで呼び出しをやっていくうちに感覚がつかめていくと思う。確認の基本は使用強度とスケールで表を作る感じだな。あとはキャプションを見て、ロックの掛かっている必須要素の解放をすること。これやんないとまずキャラが成立しない。 ポケモンのカスミLoraとかをいじくりまわしてみるとわかりやすいぞ。何種類かあって、どれだったかは忘れたがそのうちの一個がまた随分出来のいい奴がある。具体的には、コントロールネットでポーズを強制した際にLoraなしでやった時と同じレベルで従順度が高い。(いろんなLoraでコントロールネットと使い合わせるとわかるが、Loraによってコントロールネットに対する従順度が全然違ってくる。表を出して確認する感じだと過学習気味であるほど従順度は低い。 0.8ぐらいで使えと書いてあるやつは大体過学習。:1.0でしっかり過不足なく機能しつつ、スケール4~7ぐらいでいい感じに描いてくれるやつが有能) -- 2023-06-24 (土) 09:11:39
      • 捕捉:ちびたいに転がっているデータってのはずん子のことじゃなく、他の人たちが作った他のキャラクターデータのことな。 -- 2023-06-24 (土) 09:14:07
    • あと、ここでLora学習の基礎原理を理解しない限り パラメーターをいじくる以前の問題。[https://note.com/emanon_14/n/n87820b45adc6]要は差分累積ってことな。 seedを固定した状態で 指定モデル+キャプションワードで生成した場合の絵 と 指定モデル+キャプションワード+教師画像のコントロールネット・リファレンスで生成した場合の絵 『この二枚の差分』 を次々累積させていくのが Loraである と考えるのが解りやすいだろうか。 -- 2023-06-24 (土) 11:02:08
  • じゃないと、どこかでこういった情報の公開、妥協していかないとこの「学習」にまつわる話って誰も理解できないと思うんだよね。 -- 2023-06-18 (日) 17:12:49
    • ごめんね。たぶんここを記載している人にそんな時間はないです。だいたい3人くらいしか執筆してないから、あんまりいじめないで欲しい。 -- 2023-06-18 (日) 17:16:24
  • sd-scriptのアップデート方法についてご教示いただけませんか。何回やってもこけてしまい・・・ -- 2023-06-22 (木) 08:54:51
    • https://github.com/kohya-ss/sd-scripts/blob/main/README-ja.md
      「アップグレード」で示す4行をそれぞれ実行して、どの行を実行したときにエラーが出てくるか、それとエラー情報を提示できる? -- 2023-06-22 (木) 09:23:24
      • アップグレードはおかげさまでなんとなくできた気がします。ただどうもpythonとSDをcドライブに、sd-scriptsをeドライブに入れているせいでprodigyがcに入ってしまい、実行してもインストールされていない、と出るようです。eのsd-scriptsのディレクトリ指定してpipしても同じで、インストール場所はcと出てしまい困ってしまいました・・・ -- 2023-06-23 (金) 06:22:32
      • pipする前にvenvのactivateしてないんじゃない? -- 2023-06-23 (金) 12:32:37
      • 確かに.\venv\Scripts\activate入れても失敗するというかプロンプトの頭に(venv)って出ないんですよね。これがうまくいかないのはもうはじめからやり直すしかないですかね。venvフォルダ消して、上のURLの「Windows環境でのインストール」やればいいんでしょうか・・・アホですいません -- 2023-06-23 (金) 13:04:38
      • ちなみにcドライブにprodigyインスト成功とは出るんです。。。 -- 2023-06-23 (金) 13:05:54
      • それは仮想環境じゃなくて大本にインストールされてる 1から構築しなおしたほうが早いよ -- 2023-06-23 (金) 16:50:02
    • 正直大した違いじゃないから消して入れ直せばいい -- 2023-06-22 (木) 09:37:21
      • 再インストールって上書きじゃダメですよね。一度消すやり方がググってもでなく・・・ -- 2023-06-22 (木) 12:15:58
  • 学習率の目算のところで計算式ではバッチ数を乗算してますが、ここは除算ではないですか?計算例でも乗算してますけど、バッチ数2ということは一度に2枚処理しますから枚数20枚ならリピート数10では1エポックあたり10*(20/2)=100ステップになり、20エポックで2000ステップではないでしょうか?計算式通りだと総ステップ数は8000ステップになって4倍小さな(=1/4の)学習率になりはしないですかね。 -- 2023-06-28 (水) 10:42:30
  • 学習率に関しては画像のクヲリティ、サイズとか色んな要素が関わってくるからあんまり気にしなくていいよ。とりあえず、1e-04とかで初めて、結果を見て調整していけばいい。 -- 2023-06-30 (金) 22:44:25
    • 8枚画像正則画像なしステップ数1600バッチ数1でテストしてみました。デフォで1e4となってるのをこれまでは小さめにした方が良いように思ってて1e5とかそれよりも小さい値でやってたところ、今回は大きい方も検証するために1e3も採用してみたら、1e3, 1e4, 1e5の比較では1e3>1e4>1e5という結果でした。キャラ学習でしたが1e5だと顔学習すら収束してなくて1e4は顔はなんとか学習するものの体格の学習までで手一杯、1e3になってようやくキャラ学習が終わる感じです。これまでは顔すらまともに出てこなかった原因がようやくわかったので良かったです。ついでに1e3についてスケジューラーをcostantとlinearで比較したところ微妙ではありますがlinearの方に軍配を上げたいかなと思いました。どちらもステップ数終盤になってからも奇形が生じたりするので過学習な気もしますがガチャ引けばそこそこ満足なキャラが出るので良しとしました。それから、学習させたいタグは除くんだというTIPもあるようですが、kohya氏LoRA/DBのキャプション方式では学習させたいタグを抜くと見事なまでに破綻しました。Taggerで生成したものにカスタムタグを1つ追加するだけにする方が良いみたいです(クラスタグはTaggerですでに付いているので)。でもけっきょく1e3周辺の適切な学習率の探索が面倒に感じてしまいAdafactorの存在を知ったこともあってそちらを試してみたら割といい感じで出来てしまったのでAdafactorに流れてしまいました。画像100枚くらいでステップ数8000でうまく行きました。呪文でも相当左右されるので呪文の工夫も必要ですね。 -- 2023-07-02 (日) 17:46:42
  • AdaFactorにDAdaptionに色々試して結局AdamWに戻ってきた -- 2023-07-02 (日) 01:47:47
  • 俺もAdamWが一番いいと思う。自動調整は確かに優秀な面も多いけど、減衰書けようが何しようが過学習気味なりやすかった。その面AdamWは細かい学習率の調整が可能だからやっぱ優秀なんよね。 -- 2023-07-02 (日) 05:04:31
  • 強度1でちょうどよく作れると気持ちいいけど、他のLoRA(特に体位とかシチュエーションみたいな強いLoRA)との併用が微妙になる気がする…。過学習気味にして(できればBlockWeightで)弱めて使う方が不思議と馴染む。1でジャストだと弱める余地がないのよね。 -- 2023-07-02 (日) 14:40:06
  • 自動オプティマイザーの進化には制作者様に感謝ですが、使うと別の課題、面倒くささが発生しますね。自動化が悪いんじゃなくてLoRA学習根本的な課題。
    ・lossが減る→目標に対してより鋭敏に学習する。教師画像が悪ければ、間違った方向にも学習する。しかもUnet,textencoderどちらに学習させるか選べない。
    ・タグ設定や正則画像の他の部分の設定ミスが顕在化する。
    過学習を抑制する良い手段があんまりない。(BlockWeight,Lr,beta値調整等、どれもピンポイントで解決できる変数がない)。
    …と、逆に考える要素が増えるので、もうちょい研究が必要そう。 -- 2023-07-02 (日) 15:27:14
  • このデータセットならこの設定がオススメ、みたいな風に学習率やパラメータの調整こそAIにやって欲しいところだけど、目指す完成形が時と場合によって違うから流石に難しいね…状況次第では再現度を多少妥協してでも他LoRAとの組み合わせやすさを取る場合もあるだろうし -- 2023-07-02 (日) 16:21:21
  • キャラはAdamWが好きな出来栄えだったけどシチュはDAdaptが良かった。ただ正直これどれが一番良いとかいう話じゃなくて、その都度試して良いのを探すしかない気がする…次に作るキャラはもしかするとDAdaptの方が良く出来るかもしれないしAdaFactorが良いかもしれない -- 2023-07-09 (日) 12:42:49
  • 単体使用で似せるだけならそこまで難しくないけど再現度を維持したまま他のLoRAとも破綻なく組み合わせたい…とかを目指しだすと急激に難易度が上がる… -- 2023-08-24 (木) 21:18:50
  • DAdaptAdamの optimizer_args に指定できる use_bias_correction と growth_rateの意味が分からないんだけど、誰か詳しい人いる? -- 2023-08-31 (木) 22:48:58
  • prodigy何をどう設定しても恐ろしい勢いで過学習していくけどみんなこれどうやって上手く使ってるんだろう -- 2023-09-04 (月) 01:39:51
    • prodigyは無理に使わなくてOK。各スレでの見解では過学習の解決ができず断念する方も多いです。prodigyが実用上万能なんてどこにも書いていませんので、気にしなくていいですよ。 -- 2023-09-08 (金) 18:19:26
    • 合わせやすい特徴に早めに寄せるから一見学習データっぽい絵になるってだけで内部はまだまだズタズタ。つまり過学習じゃなくて多分実際は学習不足。適合までの必要ステップ数はAdamWとそんな変わらないと出てる。放置してりゃそのうち一気に崩れてその後持ち直せれば一段精度が上がってるってのを繰り返すのがprodigy(そしてfp16だと大抵勾配爆発を支えきれなくて死ぬ) -- 2023-10-30 (月) 23:24:04
  • 過学習する場合は、weight_decayを上げると抑えられるよ。あとは、LoRAの強度を0.7とかに下げる。あとは、decouple, use_bias_correction,safeguard_warmupをTrueにするとか -- 2023-09-08 (金) 17:10:38
    • あと、prodigyは一番最後の重みじゃなくて中間stepの重みを使うものだと思う。 -- 2023-09-08 (金) 19:47:58
  • DAdaptに慣れてきてかなりキレイに出力できるようになって満足。それでprodigyにも触れてみようと思うんだけど、prodigy.pyって何?「その他の変数や解説等は、prodigy.pyを参照。」とあるし、見てみたいんだけどsd-scriptsにも見当たらぬ… -- 2023-09-11 (月) 03:56:23
    • Prodigyoptの方にあります。→Prodigy.py -- 2023-09-11 (月) 07:48:23
  • 何となくだけど複数のLoRAを併用した際にお互いのU-Netがぶつかり合うと画面が崩壊して、TextEncoderがぶつかると要素が薄まる・消えるようなイメージ……そんな感覚がある、でも体感なので全然そんなことはないかもしれない -- 2023-09-25 (月) 23:21:39
  • 最近LoRA作成初めたので根本的なところわかってないかもしれないですがAdamWやLionといった手動型は普通に使えるのですがAdafactor等の自動型を実行するとsubprocess.CalledProcessErrorで終わってしまいます。LRは1にしているし何が原因なのかわからないので何かよろしくお願いします。 -- 2023-10-14 (土) 11:07:31
    • おそらく、どこか書き間違っているだけです。半角スペースが足りないとか。このwikiのサイト内検索で類似事例がヒットします。 解決しない場合→構築した環境の説明とエラーメッセージの全文をスレに書き込んで相談したらいいでしょう。 -- 2023-10-15 (日) 23:45:27
    • subprocess.CalledProcessErrorは実行に失敗したら常に出る「失敗した」としか言ってないやつね。実際のエラー原因は大抵そこよりもう少し上の行に、なんで通らなかったかまで含めてきちんと書いてあったりするのでよく読んでみよう。 -- 2023-10-18 (水) 00:24:37
      • ありがとうございます、解決できました。 -- 2023-10-19 (木) 07:24:49
  • AdafactorのLRって1?1e-3? とにかくlossが0.07あたりからなかなか減らず8,000stepまわしても0.06台なのって何かおかしいんかな。 -- 2023-11-14 (火) 13:53:51
    • adaの場合lossが減らないのは特に学習初期の特徴の識別に手間取って詰まってるせい。キャプションをきちんと打ってやれば減りはスムーズにはなるけど大局的な減少率は変わらないので、現状でほっといてもいずれ一気にlossが落ちてどっかで帳尻は合うので心配しなくていい。ただ、エスパーするけど君の学習データはもう少し低rankの方が向いてるかもな。 -- 2023-11-16 (木) 00:41:57
  • 質問の意図がちょっとわからないけど、lossが0.06であることに、何か問題があるのですか?
    lossは指標でしかなく、AdaFactorだからLossが減るとは限らないです。教師画像によっては、lossが0.06でも十分優秀じゃないでしょうか? -- 2023-11-14 (火) 16:45:10
  • 他の方が作ったLORAを見るとサイズが小さいにも関わらずしっかり学習し機能しているものがありますが、私が作るLORAはかならずサイズが100MB超えてしまいます。どのような設定をすればサイズを抑えつつ綺麗に学習させれるのでしょうか? -- 2023-11-17 (金) 15:11:18
    • 容量はDimを減らせ。一般的なキャラloraなら8とか16で十分。画風とかになるとわからんけどな。学習は、学習率を調整。大きく上げて様子みてから下げていくか、またはその逆をやって調査する。使うオプティマイザーによって推奨値が全然違うのに注意。他は素材の良さとかになる。ちなみに使用するときに強度1で丁度いいみたいなloraは滅多に出来ない。多少は使う時に要調整。 -- 2023-11-17 (金) 16:58:57
    • 参考ページです→LoRA/学習方法#ca051011 -- 2023-11-19 (日) 10:34:24
    • ぶっちゃけ綺麗なLoRAが完成する成功率は素材の質と数に左右される。理想はマンガTVアニメのように画風が統一された公式画像が豊潤にあるもので、逆に絵柄が統一されず、質も安定しない、資料の少ないマイナーなキャラの二次創作は素材としての適性が最も低い。 -- 2023-11-19 (日) 15:16:15
  • ありがとうございます。dimで容量変わるんですね。オプティマイザーは割と自分なりの安定値見つけてるのでそれとの兼ね合いで調整してみます。 -- 2023-11-22 (水) 22:00:03
  • 悪くない出来だけどちょっとキャプションを修正したい→キャプション変えて再学習→キャプション以外変えてないのに似て非なる結果になり全く解決せず泣きながら寝る→次の日投げやりな気持ちでそのままもう一度回す→上手くできた ??????????????????????ぜんぜんわからない俺たちは雰囲気で学習をやっている -- 2024-04-15 (月) 23:48:45
    • seed固定してないんじゃない? -- 2024-04-17 (水) 00:08:09