2026年のエージェント評価に向けた「軌跡評価器(eval-sanity v0.3)」の紹介。依存ゼロ・決定的な動作を実現し、エージェントの挙動を厳密にチェックするためのツール。