大規模バッチサイズ学習が汎化性能を低下させる「Sharp Minima」の概念を解説。損失関数の形状がモデルの未知データに対する適応能力にどう影響するかを理論的に説明する。