К содержимому
Блог
АРРМетрики

Что такое WER и WRR в системах распознавания речи

Ключевые метрики ASR-систем: Word Error Rate (WER) и Word Recognition Rate (WRR). Формулы расчёта, наглядный пример и интерпретация результатов.

Максим
Опубликовано 14 апреля 2026 г.
3 мин чтения

При работе с системами автоматического распознавания речи (ASR) один из первых вопросов, который возникает, — «Насколько хорошо работает эта модель?». Чтобы ответить на него объективно, нам нужны количественные метрики. В индустрии стандартом де-факто для оценки точности ASR-систем является Word Error Rate (WER). Давайте разберёмся, что это такое, как его считать и правильно интерпретировать.

Что такое Word Error Rate (WER)?

Word Error Rate (WER), или «коэффициент ошибок на уровне слов», — это метрика, которая измеряет расхождение между текстом, сгенерированным ASR-системой (гипотезой), и эталонной, вычитанной человеком расшифровкой (референсом). Чем ниже значение WER, тем точнее работает модель.

В основе WER лежит алгоритм Левенштейна, адаптированный для работы со словами вместо символов.

Для расчёта WER необходимо определить три типа ошибок:

  • Замены (Substitutions, S): слова, которые система распознала неверно. Например, вместо «будет» модель выдала «была».
  • Удаления (Deletions, D): слова, которые присутствовали в эталонной расшифровке, но были пропущены системой.
  • Вставки (Insertions, I): лишние слова, которые модель «придумала», хотя их не было в исходной аудиозаписи.

Типы ошибок при расчёте WER

Loading diagram…

Формула и пример расчёта

Формула для расчёта WER:

Где — замены, — удаления, — вставки, — общее количество слов в эталонной расшифровке.

Информация

Из-за наличия вставок (I) значение WER теоретически может превышать 100%.

Наглядный пример

Рассчитаем WER для конкретного случая:

  • Эталон: сегодня будет хорошая погода (N = 4 слова)
  • Гипотеза: сегодня была хорошая погода да

Выравниваем слова:

ЭталонГипотезаРезультатSDI
сегоднясегоднясовпадение000
будетбылазамена100
хорошаяхорошаясовпадение000
погодапогодасовпадение000
давставка001

Итого: , , ,

Что такое Word Recognition Rate (WRR)?

Word Recognition Rate (WRR), иногда называемый Word Accuracy, — это «обратная» метрика к WER. Она показывает долю правильно распознанных слов.

В нашем примере:

Альтернативная формула учитывает совпадения ( — Hits) напрямую:

Для нашего примера:

Внимание

Формулы могут давать разные результаты в зависимости от реализации. Всегда уточняйте, какой именно вариант используется при сравнении моделей.

Как интерпретировать результаты?

Оценка WER сильно зависит от контекста: качества звука, тематики, наличия акцентов. Однако можно ориентироваться на следующие общие значения:

Шкала интерпретации WER

Loading diagram…
  • 0–5% WER — превосходный результат, сопоставимый с качеством ручной расшифровки.
  • 5–10% WER — отличное качество, текст почти не требует правок. Готово для production.
  • 10–20% WER — приемлемое качество, может потребоваться постредактирование.
  • 20–30% WER — удовлетворительное качество, заметное количество ошибок. Модель требует доработки.
  • 30% и выше — низкое качество, расшифровка затруднена. Необходимо существенное улучшение.

Ограничения метрики WER

Несмотря на популярность, WER не является идеальной метрикой:

  • Все слова равноценны. WER одинаково оценит замену предлога «в» на «на» и замену слова «не» на «да», хотя вторая ошибка полностью меняет смысл предложения.
  • Отсутствие учёта пунктуации. Стандартный WER игнорирует знаки препинания, заглавные буквы и форматирование.
  • Не измеряет читаемость. Два текста с одинаковым WER могут иметь совершенно разную читаемость для человека.

Заключение

WER и WRR — фундаментальные инструменты для оценки производительности ASR-систем. Они дают быструю и стандартизированную оценку точности, позволяя сравнивать модели и отслеживать прогресс в обучении.

Однако для глубокого анализа работы модели недостаточно смотреть только на итоговую цифру. Важно анализировать сами ошибки — преобладают ли замены, вставки или удаления? Какие именно слова модель путает? Ответы на эти вопросы — ключ к дальнейшему улучшению качества распознавания речи.1

Footnotes

  1. Для промышленной оценки точности ASR рекомендуется использовать WER совместно с другими метриками, такими как Character Error Rate (CER), Sentence Error Rate (SER) и Match Error Rate (MER), а также проводить тестирование на различных акустических условиях и доменах.