LLMアプリの評価管理に課題を感じている方向けに、Langfuseを導入した評価フローの体験レポート。Scores、Datasets、LLM-as-a-Judge、Annotation Queueの主要4機能の使用感を解説する。