Все распространённые контейнеры

Все форматы аудио и видео
для транскрибации

Cosmo Scribe принимает все массовые форматы — от диктофонных MP3 и iPhone-овских M4A до OGG из Telegram и WEBM из браузера. Видео тоже подходят: для MP4 и MOV нужно один раз извлечь дорожку звука.

Загрузить файл

Аудио — нативная поддержка

Эти форматы загружаются напрямую без конвертации. Размер одного файла — до 50 МБ.

MP3
MPEG-1 Audio Layer III

Самый массовый формат

Диктофоны, подкасты, аудиокниги, голосовые WhatsApp на Android

Подробнее →
WAV
Waveform Audio File

Несжатое студийное аудио

Профессиональная запись, музыкальное оборудование, лучшее качество распознавания

Подробнее →
M4A
MPEG-4 Audio (AAC)

iPhone и Apple Voice Memos

Диктофон iPhone и iPad, GarageBand, экспорт из QuickTime

Подробнее →
OGG
Ogg Vorbis / Opus

Голосовые из мессенджеров

Голосовые сообщения Telegram, веб-аудио, открытый стандарт

Подробнее →
FLAC
Аудиокодек без потерь (Free Lossless Audio Codec)

Сжатие без потерь

Аудиофильские записи, мастеринг, архивное хранение

AAC
Advanced Audio Coding

Потоковое аудио

YouTube, Apple Music, многие сервисы потокового аудио

WMA
Windows Media Audio

Windows-формат

Старые диктофоны и Windows-плееры, экспорт из Windows-программ

WEBM
WebM Audio (Vorbis/Opus)

Браузерное аудио и видео

Запись с микрофона в браузере, Loom, скриншот-инструменты

Видео — извлечение аудиодорожки

Прямо сейчас принимаем WEBM-видео целиком. Для MP4, MOV, AVI, MKV нужно один раз извлечь звуковую дорожку — это делается за пару секунд в видеоконвертере или онлайн-сервисе.

Подробнее о транскрибации видео →

Голосовые сообщения из мессенджеров

Telegram, WhatsApp, Viber, ВКонтакте — у каждого мессенджера свой способ выгрузить голосовое в файл. Подробная инструкция по платформам — на отдельной странице.

Голосовые в текст →

Частые вопросы о форматах

Что если моего формата нет в списке?
Большинство «нестандартных» расширений — это переименованные MP3, WAV или MP4. Попробуйте загрузить как есть. Если не получится — конвертируйте в MP3 в любом онлайн-сервисе и загрузите снова.
Влияет ли формат на точность распознавания?
Косвенно. Главное — качество исходной записи: чёткая речь, минимум шума, нормальная громкость. WAV и FLAC сохраняют сигнал без потерь, но если запись изначально шумная, формат без потерь это не исправит.
Какой формат лучше для распознавания?
Для качества — WAV или FLAC. Для скорости загрузки — MP3 (одна минута ≈ 1 МБ). На практике разница в распознавании между MP3 и WAV минимальна, если MP3 закодирован битрейтом ≥128 кбит/с.
Можно ли загрузить файл больше 50 МБ?
Гостям без регистрации — нет, лимит 50 МБ. После регистрации на бесплатном тарифе — до 100 МБ. На платных тарифах — до 300 МБ (Лайт), 500 МБ (Профессионал) и 1 ГБ (Бизнес). Альтернатива для длинных записей: разрезать на части (например, в Audacity) и загрузить пакетом.
Поддерживается ли стерео и многоканальное аудио?
Да. Стерео и многоканальные записи (в том числе из Zoom) обрабатываются — сервис автоматически сводит каналы для распознавания. Диаризация при этом продолжает работать по голосам.

Не нашли свой формат?

Просто попробуйте загрузить — если расширение поддерживается, файл обработается. Если нет — подскажем чем сконвертировать.

Загрузить запись