ChatGPTやClaudeがなぜ人間らしい返答をできるのか、その鍵であるRLHF(人間からのフィードバックによる強化学習)を解説。DQNからPPOへと至る強化学習の基礎知識を順を追って説明します。