LLMアプリケーションのテストにおける課題を整理。従来の関数テストとは異なり、自然言語の不確定性がある中での品質保証について論じます。Hallucinationの抑制や、期待値評価のための現実的なテスト手法とワークフローの考え方を提案します。
AIワークフローのテストケースを作る:golden case / regression / incident replay
編集メモ: LLMアプリの品質保証には、従来のユニットテストとは異なる、出力の不確実性を考慮した新たなテストワークフローの確立が必須です。