В целом это большой спрос!
Проблема с любой системой распознавания речи в том, что она лучше всего работает после тренировки. Ему нужен контекст (какие слова ожидать) и какой-то аудио тест (как звучит каждый голос). Это может быть возможно в некоторых случаях, например, в сериалах, если вы хотите обучать часам речи, разделенной на каждого персонажа, чтобы обучить его. Там много работы, хотя. Для чего-то похожего на фильм, вероятно, нет никакой надежды обучить распознавателя, если вы не сможете овладеть актерами.
Большинство кино- и телекомпаний просто нанимают медиакомпании для транскрибирования субтитров на основе либо прямой транскрипции с использованием оператора-человека, либо преобразования сценария. Тот факт, что им все еще нужны люди в цикле для этих огромных операций, говорит о том, что автоматизированные системы просто еще не дошли до этого.
В видео у вас есть множество вещей, которые делают вашу жизнь трудной, в значительной степени охватывающей огромные массы современных исследований в области речевых технологий:
-> Несколько колонок -> «Идентификация колонок» (вы можете различать символы? Кроме того, субтитры обычно имеют разноцветный текст для разных колонок)
-> Несколько одновременных динамиков -> «Проблема коктейльной вечеринки» - можете ли вы разделить два голосовых компонента и транскрибировать оба?
-> Фоновый шум -> Можете ли вы выделить речь из любого саундтрека / фоли / взрывающихся вертолетов.
Речевой алгоритм должен быть чрезвычайно надежным, поскольку разные персонажи могут иметь разный пол / акценты / эмоции. Исходя из того, что я понимаю о текущем состоянии распознавания, вы, возможно, сможете получить одного оратора после некоторой тренировки, но попросить единую программу прибить их всех может быть сложно!
-
Не существует формата "субтитров", о котором я знаю. Я бы предложил сохранить изображение текста с использованием шрифта, например Tiresias Screenfont , специально разработанного для удобочитаемости в этих обстоятельствах, и использовать таблицу поиска для перекрестных ссылок на изображения по временному коду видео (помня NTSC / PAL / Cinema). использовать разные форматы синхронизации).
-
Существует множество проприетарных систем распознавания речи. Если вы хотите лучшего, вы, вероятно, захотите получить лицензию на решение от одного из таких больших ребят, как Nuance. Если вы хотите оставить вещи свободными, университеты RWTH и CMU разработали несколько решений. Я понятия не имею, насколько они хороши или насколько хорошо они подходят для этой проблемы.
-
Единственное решение, которое я могу придумать, похожее на то, к чему вы стремитесь, это субтитры, которые вы можете получить на новостных каналах здесь, в Великобритании, "Live Closed Captioning". Так как он живой, я предполагаю, что они используют какую-то систему распознавания речи, подготовленную для читателя (хотя она может и не обучаться, я не уверен). За последние несколько лет стало лучше, но в целом все еще довольно бедно. Самая большая вещь, с которой приходится бороться, это скорость. Диалог, как правило, очень быстрый, поэтому у субтитров в реальном времени есть дополнительная проблема - сделать все вовремя. Живые закрытые подписи довольно часто остаются позади, и им приходится пропускать много контента, чтобы наверстать упущенное.
Нужно ли вам иметь дело с этим, зависит от того, будете ли вы добавлять субтитры к «живому» видео или можете ли вы предварительно обработать его. Чтобы справиться со всеми дополнительными сложностями, описанными выше, я предполагаю, что вам нужно предварительно обработать его.
-
Как бы я не ненавидел цитирование большой буквы W, есть золотая жила полезных ссылок здесь !
Удачи:)