LLMの学習データがモデル性能に及ぼす影響と、学習プロセスを解説。事前学習、SFT、強化学習(RLHF、DPO、RLVR)の各段階で必要なデータの形式について、技術的な要点を整理する。