Как улучшить качество распознавания речи

«Распознавание плохое» — самая частая претензия к любому сервису транскрибации. Но в большинстве случаев проблема не в сервисе, а в записи: тихий далёкий голос, гул кондиционера, эхо в пустой комнате, специальные термины, которых модель не знает. Хорошая новость — почти всё это поправимо, и часто ещё до загрузки файла.

Разберём по порядку: что влияет на качество и что с этим делать.

Главное правило: чистый звук важнее громкого

Распознавание ошибается не там, где тихо, а там, где грязно. Громкая запись с эхом и фоновым гулом распознаётся хуже, чем тихая, но чистая. Поэтому усилия стоит тратить не на громкость, а на чистоту сигнала.

Что сделать при записи

Микрофон ближе к говорящему. Удвоение расстояния до источника — это вчетверо меньше полезного сигнала относительно шума. Телефон на столе перед собеседником лучше, чем ноутбук в метре.
Глушите эхо, а не добавляйте громкости. В пустой комнате с голыми стенами эхо «размазывает» слова. Ковёр, шторы, мягкая мебель реально помогают.
Убирайте постоянный фон. Кондиционер, вентилятор ноутбука, музыка в кафе. Постоянный гул — главный враг распознавания.
Один человек — один микрофон, если есть возможность. Для созвонов это значит: пусть каждый подключается со своего устройства, а не вчетвером вокруг одного ноутбука.

Что делает Cosmo Scribe автоматически

Перед распознаванием каждая запись проходит подготовку — её не нужно включать, она работает всегда:

Нормализация громкости — тихие и неровные по громкости записи выравниваются, чтобы модель не «теряла» тихие реплики.
Срез низкочастотного гула — постоянный фон ниже голосового диапазона убирается.

Это аккуратная подготовка без агрессивной чистки — потому что слишком сильное шумоподавление в среднем ухудшает распознавание, выгрызая вместе с шумом части речи. Поэтому по умолчанию сервис только выравнивает и подчищает фон, не более.

Когда включать шумоподавление вручную

Для записей с заметным фоном (улица, кафе, техника рядом) есть отдельный чекбокс шумоподавления при загрузке. Включайте его осознанно: на чистой записи он не нужен и может чуть смягчить голос. Важно понимать, что это шумоподавление, а не удаление эха и не разделение голосов: убрать музыку из-под речи или «расклеить» наложившиеся голоса оно не умеет.

Словарь терминов: лечим «созвучия»

Если в записях постоянно встречаются названия продуктов, фамилии, профессиональный жаргон, аббревиатуры — модель будет заменять их на похожие по звучанию обычные слова. Лечится это словарём: добавьте термины, которые важны, и сервис будет распознавать их правильно. Особенно полезно для:

названий компаний и продуктов;
имён и фамилий участников;
отраслевых терминов (медицина, IT, юриспруденция);
аббревиатур, которые иначе расшифровываются как обычные слова.

Чего распознавание не сделает в принципе

Честно о пределах:

Не разберёт речь сквозь громкую музыку — если голос тонет в треке, его не вытащить.
Не «расклеит» перебивающих друг друга людей — когда двое говорят одновременно, часть теряется.
Не угадает имена собственные без контекста — для этого и нужен словарь.
Не починит запись, где слов почти не слышно человеку — если вы сами не разбираете, модель тоже не разберёт.

Резюме

Качество распознавания — это в первую очередь качество записи. Микрофон ближе, фон тише, эхо глуше — и результат меняется кардинально. Cosmo Scribe берёт на себя нормализацию и срез гула автоматически, шумоподавление включается вручную для шумных записей, а словарь терминов решает проблему «созвучий». Подробнее про саму технологию — на странице распознавания речи.

Если запись уже есть — загрузите её на главной и при необходимости включите шумоподавление. А следующую запись сделайте по правилам выше — разница будет заметна.

Загрузите запись прямо сейчас

Бесплатно для записей до 30 минут. Текст с тайм-кодами через минуту.

Открыть Cosmo Scribe

Как улучшить качество распознавания речи: микрофон, шум, словарь

Главное правило: чистый звук важнее громкого

Что сделать при записи

Что делает Cosmo Scribe автоматически

Когда включать шумоподавление вручную

Словарь терминов: лечим «созвучия»

Чего распознавание не сделает в принципе

Резюме

Читайте также

Как контролировать качество звонков по чек-листу (и не скатиться в оценку людей)

10 шаблонов краткого содержания: какой выбрать под вашу задачу

Лучшие сервисы транскрибации аудио в текст в 2026 году: сравнение 9 решений