Gemma-4-E2B-itモデルを用い、8言語56ペアの翻訳精度を評価したベンチマークレポート。機械的な精度を測るsacreBLEUと、意味的整合性を測るCOMET-22を用いてモデルの多言語能力を検証しています。