Блог27 февр. 2026 г.

Как на самом деле работает распознавание речи

Простым языком о том, как современные ASR-системы превращают аудио в текст — от звуковых волн до транскрипта с метками спикеров.

Leonid

Распознавание речи за последние годы стало намного точнее, но сам процесс для большинства остаётся загадкой. Вот как это работает — без лишнего жаргона.

От звука к сигналу

Когда вы говорите, вы создаёте звуковые волны — колебания давления в воздухе. Микрофон преобразует их в электрический сигнал, который затем оцифровывается в поток чисел (сэмплов) с фиксированной частотой — обычно 16 000 раз в секунду.

Сырая звуковая волна слишком шумная и неструктурированная для прямого анализа. Первый шаг обработки — преобразование в спектрограмму — визуальное представление частот во времени. Это как тепловая карта, показывающая какие звуковые частоты активны в каждый момент.

Извлечение признаков

Спектрограмма далее обрабатывается в мел-частотные признаки — сжатое представление, которое повторяет то, как человеческое ухо воспринимает звук. Низкие частоты получают больше разрешения, чем высокие, потому что именно там содержится основная информация о речи.

Эти признаки становятся входом нейросети. Каждое маленькое временное окно (обычно 20-30 миллисекунд) даёт один вектор, описывающий как звучит аудио в этот момент.

Нейронная сеть

Современное распознавание речи использует трансформерные модели типа энкодер-декодер. Энкодер считывает аудио-признаки и строит внутреннее представление всей записи. Декодер затем генерирует текст токен за токеном, предсказывая следующий элемент на основе всего увиденного ранее.

Это та же архитектура, что и в больших языковых моделях, но адаптированная для аудио-входа вместо текстового. Модель учится на тысячах часов размеченного аудио во время тренировки.

Диаризация спикеров

Определение кто говорит — отдельный этап, называемый диаризацией. Система:

Находит сегменты, где кто-то говорит (детекция голосовой активности)
Извлекает голосовой «отпечаток» (эмбеддинг) для каждого сегмента
Группирует похожие отпечатки — сегменты со схожими характеристиками голоса получают одну метку
Присваивает метки: Спикер 1, Спикер 2 и т.д.

Это происходит независимо от распознавания текста, и результаты объединяются для создания транскрипта с метками спикеров.

Определение языка

Большинство современных моделей определяют язык автоматически. Они анализируют первые секунды аудио и сопоставляют акустические паттерны с известными языками. Некоторые модели работают с несколькими языками в одной записи, переключая метки при смене языка.

От чего зависит точность

Качество распознавания зависит от нескольких факторов:

Фоновый шум — постоянный шум (вентилятор, трафик) обрабатывается проще, чем внезапные звуки (хлопки, кашель)
Расстояние до микрофона — ближе всегда лучше; гарнитуры точнее настольных микрофонов
Количество спикеров — двоих разделить проще, чем пятерых одновременно
Формат аудио — записи с высоким битрейтом сохраняют больше деталей; сжатые телефонные звонки теряют информацию
Акцент и скорость — модели работают лучше с распространёнными паттернами речи и умеренным темпом

Что делает Mediata

Когда вы загружаете запись в Mediata, система проходит весь пайплайн:

Предобработка аудио и нормализация формата
Распознавание речи для получения текста
Диаризация спикеров для определения кто что сказал
Выравнивание временных меток для привязки текста к конкретным моментам
Результат появляется как структурированный транскрипт с метками спикеров, временными отметками и полным текстом — готовый для поиска и AI-анализа

Весь процесс работает на специализированной GPU-инфраструктуре и обычно завершается за долю длительности записи.