«Распознавание плохое» — самая частая претензия к любому сервису транскрибации. Но в большинстве случаев проблема не в сервисе, а в записи: тихий далёкий голос, гул кондиционера, эхо в пустой комнате, специальные термины, которых модель не знает. Хорошая новость — почти всё это поправимо, и часто ещё до загрузки файла.
Разберём по порядку: что влияет на качество и что с этим делать.
Главное правило: чистый звук важнее громкого
Распознавание ошибается не там, где тихо, а там, где грязно. Громкая запись с эхом и фоновым гулом распознаётся хуже, чем тихая, но чистая. Поэтому усилия стоит тратить не на громкость, а на чистоту сигнала.
Что сделать при записи
- Микрофон ближе к говорящему. Удвоение расстояния до источника — это вчетверо меньше полезного сигнала относительно шума. Телефон на столе перед собеседником лучше, чем ноутбук в метре.
- Глушите эхо, а не добавляйте громкости. В пустой комнате с голыми стенами эхо «размазывает» слова. Ковёр, шторы, мягкая мебель реально помогают.
- Убирайте постоянный фон. Кондиционер, вентилятор ноутбука, музыка в кафе. Постоянный гул — главный враг распознавания.
- Один человек — один микрофон, если есть возможность. Для созвонов это значит: пусть каждый подключается со своего устройства, а не вчетвером вокруг одного ноутбука.
Что делает Cosmo Scribe автоматически
Перед распознаванием каждая запись проходит подготовку — её не нужно включать, она работает всегда:
- Нормализация громкости — тихие и неровные по громкости записи выравниваются, чтобы модель не «теряла» тихие реплики.
- Срез низкочастотного гула — постоянный фон ниже голосового диапазона убирается.
Это аккуратная подготовка без агрессивной чистки — потому что слишком сильное шумоподавление в среднем ухудшает распознавание, выгрызая вместе с шумом части речи. Поэтому по умолчанию сервис только выравнивает и подчищает фон, не более.
Когда включать шумоподавление вручную
Для записей с заметным фоном (улица, кафе, техника рядом) есть отдельный чекбокс шумоподавления при загрузке. Включайте его осознанно: на чистой записи он не нужен и может чуть смягчить голос. Важно понимать, что это шумоподавление, а не удаление эха и не разделение голосов: убрать музыку из-под речи или «расклеить» наложившиеся голоса оно не умеет.
Словарь терминов: лечим «созвучия»
Если в записях постоянно встречаются названия продуктов, фамилии, профессиональный жаргон, аббревиатуры — модель будет заменять их на похожие по звучанию обычные слова. Лечится это словарём: добавьте термины, которые важны, и сервис будет распознавать их правильно. Особенно полезно для:
- названий компаний и продуктов;
- имён и фамилий участников;
- отраслевых терминов (медицина, IT, юриспруденция);
- аббревиатур, которые иначе расшифровываются как обычные слова.
Чего распознавание не сделает в принципе
Честно о пределах:
- Не разберёт речь сквозь громкую музыку — если голос тонет в треке, его не вытащить.
- Не «расклеит» перебивающих друг друга людей — когда двое говорят одновременно, часть теряется.
- Не угадает имена собственные без контекста — для этого и нужен словарь.
- Не починит запись, где слов почти не слышно человеку — если вы сами не разбираете, модель тоже не разберёт.
Резюме
Качество распознавания — это в первую очередь качество записи. Микрофон ближе, фон тише, эхо глуше — и результат меняется кардинально. Cosmo Scribe берёт на себя нормализацию и срез гула автоматически, шумоподавление включается вручную для шумных записей, а словарь терминов решает проблему «созвучий». Подробнее про саму технологию — на странице распознавания речи.
Если запись уже есть — загрузите её на главной и при необходимости включите шумоподавление. А следующую запись сделайте по правилам выше — разница будет заметна.