LLMをLoRAで微調整するときのエポック数とデータ量の考察
LLMモデルをLoRAでFinetuningを行った。 エポック数とデータ量を調整し、モデルの応答の正確性や既存知識へ及ぼす影響を探ったメモ。
実験の概要
目的
- AIモデルの学習における最適なデータ量とエポック数を調べる。
- 学習データとエポック数の増加が既存の知識に及ぼす影響を分析。
結果
エポック数
- 2エポック: 学習はほぼ行われず、応答品質が低い。
- 3エポック: 応答が不安定になるが、既存知識への影響は限定的。
- 4エポック: 学習された内容は正確だが、既存知識に干渉し誤った情報(例:アラン・チューリングが2015年に亡くなったとする情報)を生成。
データ量
- データ量の増加: 224から549に増えるにつれ、応答の正確性が向上。しかし、一部の応答で既存知識と矛盾する情報が出現。
- 特定のデータセット:特定のデータセット(例:341データセット)では、CUDA OUT OF MEMORY ERRORなどの技術的な問題が発生し、学習プロセスに影響。
結論
データ量とエポック数を最適化することでAIの応答品質と学習効率が高まる。
ただし過剰なデータ量やエポック数は既存の知識に悪影響を与えることがあるため、慎重に調整しなければならない。
実践的なアプローチ
- 数量だけでなくデータの質にも注目する。多様なケースをカバーするためには幅広い種類のデータが必要。
- 初期段階で少ないデータ量とエポック数で学習を始め、徐々にこれらを増やしていくことで、モデルの応答品質と既存知識のバランスを見極める。