BunaML’s diary

機械学習、音声・自然言語、Machine Learning, NLP, Audio, Software Development

LLMをLoRAで微調整するときのエポック数とデータ量の考察

機械学習

LLMモデルをLoRAでFinetuningを行った。エポック数とデータ量を調整し、モデルの応答の正確性や既存知識へ及ぼす影響を探ったメモ。

実験の概要

エポック数: 1から4まで変化させ、応答の品質を比較。
データ量: 224データセットから549データセットまで徐々に増やし、応答の品質を比較。

目的

AIモデルの学習における最適なデータ量とエポック数を調べる。
学習データとエポック数の増加が既存の知識に及ぼす影響を分析。

結果

エポック数

2エポック: 学習はほぼ行われず、応答品質が低い。
3エポック: 応答が不安定になるが、既存知識への影響は限定的。
4エポック: 学習された内容は正確だが、既存知識に干渉し誤った情報（例：アラン・チューリングが2015年に亡くなったとする情報）を生成。

データ量

データ量の増加: 224から549に増えるにつれ、応答の正確性が向上。しかし、一部の応答で既存知識と矛盾する情報が出現。
特定のデータセット：特定のデータセット（例：341データセット）では、CUDA OUT OF MEMORY ERRORなどの技術的な問題が発生し、学習プロセスに影響。

結論

データ量とエポック数を最適化することでAIの応答品質と学習効率が高まる。
ただし過剰なデータ量やエポック数は既存の知識に悪影響を与えることがあるため、慎重に調整しなければならない。

実践的なアプローチ

数量だけでなくデータの質にも注目する。多様なケースをカバーするためには幅広い種類のデータが必要。
初期段階で少ないデータ量とエポック数で学習を始め、徐々にこれらを増やしていくことで、モデルの応答品質と既存知識のバランスを見極める。