強化学習の基礎であるDQNから、近年の大規模言語モデルの進化を支えるRLHF(人間によるフィードバックからの強化学習)の技術までを網羅的に解説する。