Что бы вы порекомендовали использовать для транскрибирования аудио файлов в формат .txt? - PullRequest
0 голосов
/ 09 июня 2018

Я работаю над небольшим школьным проектом, где мне нужно взять много аудиофайлов и транскрибировать их в файлы .txt.Я новичок в программировании.До сих пор я пробовал alexkras метод с использованием Google Cloud Speech API.Но я не могу использовать это для массовой транскрипции, как это делается путем преобразования аудио в .wav с использованием внешнего программного обеспечения (это можно сделать через ffmpeg, так что ничего страшного) и разбиения нового файла .wav на <60sотдельные части, такие как Cloud Speech, могут транскрибировать только <60 с за один раз, что является большой потерей в trans, если вы не загрузите их в GCS, но это также проблема для массовой транскрипции, поскольку некоторые файлы .wav достаточно велики (подкаст на 1 час, который я использовал, оказалсяв файл 800mb) процесс замедляется.</p>

Следующим, что я попробовал, является использование gcloud SDK и прямая запись аудиофайлов в GCS с использованием небольшого кода в моем терминале. Теперь проблема, которую я здесь заметил, заключается в том, что транскрипция не завершена, и она отображает транскрипцию таким образом.,

Пример из Google:

   {
          "@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeResponse",
      "results": [
        {
          "alternatives": [
            {
              "confidence": 0.9840146,
              "transcript": "how old is the Brooklyn Bridge"
            }
          ]
        }
      ]
    }

Что не идеально, возможно, есть способ перенести его в текстовый файл, но транскрипции, которые я сделал до сих пор, не завершены,Я получил около 30 строк текста из 11-минутного видео.

Самый эффективный метод, который я пробовал, - это метод alexkras, но, как я уже сказал выше, с этим тоже есть проблемы (в моем случае).Я искал методы машинного обучения для преобразования речи в текст, чтобы он мог распознавать или транскрибировать аудио с акцентом тоже.

Ребята, знаете ли вы какой-нибудь метод, который поможет мне эффективно транскрибировать массовые аудиозаписи в текст?Я был бы очень доволен методом alexkras, если бы не разделение файлов или загрузка его в GSC.Я был бы очень признателен за любую помощь или предложения или рекомендации с этим.Спасибо.

Ответы [ 2 ]

0 голосов
/ 02 октября 2018

Я только что изучил продукт AWS Transcribe .Для этого требуется учетная запись AWS, которую можно получить бесплатно, с помощью кредитной карты для оплаты, если вы превысите бесплатные лимиты.

Предоставляет до 60 минут в месяц аудиозаписи.Если вы потратите больше 60 минут аудио, вам нужно будет заплатить чуть меньше $ 1,50 за час транскрибированного звука.

В результате транскрипции получается файл .JSON, который нелегко прочитать.Но на GitHub есть скрипт php, который превращает файл .JSON в очень легко читаемую расшифровку текста.

Я нашел его довольно точным и относительно простымиспользовать.Я бы посмотрел на это на твоем месте.

0 голосов
/ 11 июня 2018

вы можете попробовать API Watson STT, ограничение размера файла / потока составляет 100 МБ, что означает, что при использовании правильной кодировки вы можете декодировать файлы продолжительностью до нескольких часов.Вы можете использовать sox или ffmpeg для преобразования звука, если необходимо, кодек с более легким весом равен audio/ogg

https://www.ibm.com/watson/developercloud/speech-to-text/api/v1/#recognize_sessionless12

см. Пример скручивания, чтобы начать работу

...