Qwen2.5-Coderを使い、同じコードを51回レビューさせた実証実験。多数決による精度向上の神話を検証し、LLMの指摘における「正しさ」と「しつこさ」の関係性を実データで解説。
同じコードをローカルLLMに51回監査させたら:多数決は"正しさ"より"しつこさ"を選んでいた
編集メモ: LLMの出力に対する機械的な多数決は必ずしも「正しさ」を保証せず、AIの特性を理解した上で、出力結果を客観的・批判的に検証するプロセスが開発には不可欠です。
Qwen2.5-Coderを使い、同じコードを51回レビューさせた実証実験。多数決による精度向上の神話を検証し、LLMの指摘における「正しさ」と「しつこさ」の関係性を実データで解説。