LLMエージェントの失敗をどう検知するか。GPT-4o-miniやClaude Haiku等を用い、LangGraph上のカスタマーサービスエージェントを6つのシナリオで診断した実験結果を共有します。