生成AIの性能評価において、要約やコード生成といった硬い指標だけでなく、関西風ボケに対するツッコミというユニークな手法を提案。文脈理解、文化的ニュアンスの把握、異常値検知という3つの観点から、モデルの人間的な曖昧な能力を測るための新たな評価基準を解説する。