Все распространённые контейнеры

Все форматы аудио и видео
для транскрибации

Cosmic Scribe принимает все массовые форматы — от диктофонных MP3 и iPhone-овских M4A до OGG из Telegram и WEBM из браузера. Видео тоже подходят: для MP4 и MOV нужно один раз извлечь дорожку звука.

Загрузить файл

Аудио — нативная поддержка

Эти форматы загружаются напрямую без конвертации. Размер одного файла — до 50 МБ.

MP3
MPEG-1 Audio Layer III

Самый массовый формат

Диктофоны, подкасты, аудиокниги, голосовые WhatsApp на Android

Подробнее →
WAV
Waveform Audio File

Несжатое студийное аудио

Профессиональная запись, музыкальное оборудование, лучшее качество распознавания

Подробнее →
M4A
MPEG-4 Audio (AAC)

iPhone и Apple Voice Memos

Диктофон iPhone и iPad, GarageBand, экспорт из QuickTime

Подробнее →
OGG
Ogg Vorbis / Opus

Голосовые из мессенджеров

Голосовые сообщения Telegram, веб-аудио, открытый стандарт

Подробнее →
FLAC
Free Lossless Audio Codec

Сжатие без потерь

Аудиофильские записи, мастеринг, архивное хранение

AAC
Advanced Audio Coding

Потоковое аудио

YouTube, Apple Music, многие стриминговые сервисы

WMA
Windows Media Audio

Windows-формат

Старые диктофоны и Windows-плееры, экспорт из Windows-программ

WEBM
WebM Audio (Vorbis/Opus)

Браузерное аудио и видео

Запись с микрофона в браузере, Loom, скриншот-инструменты

Видео — извлечение аудиодорожки

Прямо сейчас принимаем WEBM-видео целиком. Для MP4, MOV, AVI, MKV нужно один раз извлечь звуковую дорожку — это делается одной командой FFmpeg или любым онлайн-конвертером.

Подробнее о транскрибации видео →

Голосовые сообщения из мессенджеров

Telegram, WhatsApp, Viber, ВКонтакте — у каждого мессенджера свой способ выгрузить голосовое в файл. Подробная инструкция по платформам — на отдельной странице.

Голосовые в текст →

Частые вопросы о форматах

Что если моего формата нет в списке?
Большинство «нестандартных» расширений — это переименованные MP3, WAV или MP4. Попробуйте загрузить как есть. Если не получится — конвертируйте в MP3 онлайн-конвертером (например, CloudConvert) и загрузите снова.
Влияет ли формат на точность распознавания?
Косвенно. Главное — качество исходной записи: чёткая речь, минимум шума, нормальная громкость. WAV и FLAC сохраняют сигнал без потерь, но если запись изначально шумная, lossless-формат это не исправит.
Какой формат лучше для распознавания?
Для качества — WAV или FLAC. Для скорости загрузки — MP3 (одна минута ≈ 1 МБ). На практике разница в распознавании между MP3 и WAV минимальна, если MP3 закодирован битрейтом ≥128 кбит/с.
Можно ли загрузить файл больше 50 МБ?
Гостям и стандартным пользователям — нет. Зарегистрированные на расширенном тарифе получают увеличенный лимит. Альтернатива: разрезать длинную запись на части (например, в Audacity) и загрузить пакетом.
Поддерживается ли стерео и многоканальное аудио?
Да. Стерео и многоканальные записи (в том числе из Zoom) обрабатываются — сервис автоматически сводит каналы для распознавания. Диаризация при этом продолжает работать по голосам.

Не нашли свой формат?

Просто попробуйте загрузить — если расширение поддерживается, файл обработается. Если нет — подскажем чем сконвертировать.

Загрузить запись