BunaML’s diary

機械学習、音声・自然言語、Machine Learning, NLP, Audio, Software Development

LLMをLoRAで微調整するときのエポック数とデータ量の考察

LLMモデルをLoRAでFinetuningを行った。 エポック数とデータ量を調整し、モデルの応答の正確性や既存知識へ及ぼす影響を探ったメモ。

実験の概要

  • エポック数: 1から4まで変化させ、応答の品質を比較。
  • データ量: 224データセットから549データセットまで徐々に増やし、応答の品質を比較。

目的

  • AIモデルの学習における最適なデータ量とエポック数を調べる。
  • 学習データとエポック数の増加が既存の知識に及ぼす影響を分析。

結果

エポック数

  • 2エポック: 学習はほぼ行われず、応答品質が低い。
  • 3エポック: 応答が不安定になるが、既存知識への影響は限定的。
  • 4エポック: 学習された内容は正確だが、既存知識に干渉し誤った情報(例:アラン・チューリングが2015年に亡くなったとする情報)を生成。

データ量

  • データ量の増加: 224から549に増えるにつれ、応答の正確性が向上。しかし、一部の応答で既存知識と矛盾する情報が出現。
  • 特定のデータセット:特定のデータセット(例:341データセット)では、CUDA OUT OF MEMORY ERRORなどの技術的な問題が発生し、学習プロセスに影響。

結論

データ量とエポック数を最適化することでAIの応答品質と学習効率が高まる。
ただし過剰なデータ量やエポック数は既存の知識に悪影響を与えることがあるため、慎重に調整しなければならない。

実践的なアプローチ

  • 数量だけでなくデータの質にも注目する。多様なケースをカバーするためには幅広い種類のデータが必要。
  • 初期段階で少ないデータ量とエポック数で学習を始め、徐々にこれらを増やしていくことで、モデルの応答品質と既存知識のバランスを見極める。