QAエンジニアがClaudeの「Fable 5」と「Opus 4.8」の性能差を検証しました。プロンプトや環境を固定した条件下で、仕様書レビューにおけるモデル別の出力強度や精度の違いを報告します。
同じテスト設計をClaude Fable 5とOpus 4.8にレビューさせたら、見つかる欠陥のクラスが違った
編集メモ: AIモデルごとに得意とする欠陥検出の特性が異なるため、テスト設計やレビュー作業においては単一モデルに頼らず、モデル特性に応じた使い分けが精度の向上に直結します。