ASR · Диаризация · RU/EN

Распознавание речи
онлайн — точно и быстро

Современный speech-to-text прямо в браузере. Голос превращается в текст с разделением по спикерам, тайм-кодами и автоматической подстановкой ваших терминов.

Без установки программ, без API-ключей, без подписки на старте. Загрузка → результат за минуты.

Как устроено распознавание в Cosmic Scribe

Под капотом — современная ASR-модель и несколько слоёв обработки, чтобы вы получили не просто «голый» текст, а готовый к работе документ.

1

1. Декодирование звука

Любой формат — MP3, WAV, M4A, OGG, FLAC, AAC, WMA, WEBM — приводится к единому представлению. Модель «слышит» сигнал, а не контейнер.

2

2. Распознавание речи (ASR)

Нейросеть превращает аудиосигнал в последовательность слов. Учитываются акцент, темп, разговорная лексика, заминки и переспросы.

3

3. Диаризация — кто говорит

Алгоритм определяет, сколько в записи разных голосов и кто что произнёс. Результат — реплики, помеченные Speaker 1, Speaker 2 и так далее.

4

4. Очистка и пользовательский словарь

Текст приводится к читаемому виду: расставляются знаки препинания, нормализуется регистр. Затем применяется личный словарь — ваши имена и термины подставляются автоматически.

5

5. Тайм-коды и сегменты

К каждому фрагменту текста прикрепляется момент в записи — клик по фразе перематывает плеер. Это основа для субтитров SRT/VTT и закладок на цитатах.

Что мы делаем для точности

RU + EN
Русский, английский, авто-определение
Замен через личный словарь — без ограничений
~1 мин
На 10 минут аудио в среднем

Чем Cosmic Scribe отличается от голого API

Готовый интерфейс

Не нужно писать код, держать ключи, разбираться с форматом ответа. Загрузка, обработка, редактор и экспорт — в одном окне.

История и поиск

Все расшифровки хранятся в личном кабинете. Поиск по тексту, фильтры, группы — найти нужную запись через месяц легко.

Работа с фрагментами

Закладки на цитатах с заметками, экспорт только отмеченных моментов, переименование спикеров — то, что в API нужно собирать самому.

Совместная работа

Публичные ссылки с паролем и сроком действия для коллег и клиентов. Персональный словарь, общий для всех ваших расшифровок.

Частые вопросы о распознавании речи

Что такое распознавание речи?
Распознавание речи (ASR — Automatic Speech Recognition) — это технология, которая превращает звук голоса в текст. Современные модели работают с разными акцентами, шумом и скоростью речи.
Какие языки поддерживаются?
Сейчас поддерживаются русский и английский языки, а также режим «Авто» — система сама определяет язык записи.
Что такое диаризация спикеров?
Это автоматическое разделение реплик по говорящим: кто из участников встречи или интервью произнёс какую фразу. После распознавания спикеров можно переименовать в реальные имена прямо в редакторе.
Зачем нужен личный словарь замен?
Имена, бренды, узкие термины ASR может распознать неточно. Личный словарь автоматически подставляет правильное написание — настраиваете один раз, работает во всех будущих транскрипциях.
Можно ли распознать запись с фоновым шумом?
Да, современные модели справляются с умеренным фоновым шумом, эхо в помещении и записями с телефона. Чем чище звук, тем выше точность — но даже неидеальные записи дают хороший результат.
Подходит ли сервис для длинных записей?
Да. Лекция или встреча на 1–2 часа — стандартный сценарий. У зарегистрированных пользователей есть расширенные лимиты по размеру файла и количеству транскрипций.

Связанные страницы

Распознайте свою запись

Бесплатно, без регистрации, в браузере. Получите готовый текст за минуты.

Загрузить запись