ノイズ環境下におけるWhisperの音声認識精度を向上させるため、様々な前処理手法を比較評価。NormalizationやVAD、HPF等を検証した結果、100Hzのハイパスフィルターが最も有効であり、逆に過度な処理は精度を下げると結論付けた。
WhisperにHPFを入れたら日本語音声認識精度が改善した
編集メモ: Whisper等のAIモデルで音声認識精度を最大化するには、闇雲な処理ではなく100Hzのハイパスフィルターなど、目的に合致した適切な前処理の選定が重要です。