Обработка возвращаемых данных коммутатора - PullRequest
0 голосов
/ 05 декабря 2018

Может кто-нибудь дать мне советы о том, как обрабатывать набор данных Switchboard для обучения с RETURNN?Я видел класс BlissDataset, который, кажется, предназначен для коммутатора, но мне не ясно, что я должен включить в пути, указанные в примере:

Example:
    ./tools/dump-dataset.py "
      {'class':'BlissDataset',
       'path': '/u/tuske/work/ASR/switchboard/corpus/xml/train.corpus.gz',
       'bpe_file': '/u/zeyer/setups/switchboard/subwords/swb-bpe-codes',
       'vocab_file': '/u/zeyer/setups/switchboard/subwords/swb-vocab'}"

В наборе данных коммутатора есть несколько папок с аудио, т.е.swb1_d2 / data / *. sph и стенограммы swb1_LDC97S62 / swb_ms98_transcription / ** / * Я не совсем уверен, как поступить с этим, чтобы получить набор данных, который можно использовать для обучения RETURNN.

1 Ответ

0 голосов
/ 06 декабря 2018

В нашей группе (RWTH Aachen University) мы используем конфигурацию, опубликованную на GitHub.Как видите, этот использует ExternSprintDataset.Этот набор данных использует. Реализация использует Sprint (публично называемый RWTH ASR (RASR), см. здесь ) в качестве внешнего инструмента (запускаемого в подпроцессе) для обработки данных (извлечение объектов и т. Д.).Sprint получает XML-файл Bliss, в котором описываются все сегменты с указанием пути к аудио и аудио смещениям и транскрипциям, а также дополнительные настройки для извлечения функций и, возможно, других вещей.Существует версия RASR с открытым исходным кодом, которая должна работать, но, возможно, потребуется несколько усилий, чтобы заставить это работать.

BlissDataset планировалось, чтобы быть более простой заменой этому.Однако реализация является неполной.Кроме того, вам все равно нужно будет каким-то образом сгенерировать Bliss XML самостоятельно (мы использовали несколько собственных внутренних сценариев для его подготовки на основе официальных данных НРС).

Так что, к сожалению, не существует простого способаеще.На самом деле, я думаю, что самым простым способом было бы придумать еще один пользовательский формат, который мог бы быть похож на реализацию LibriSpeechDataset, или, может быть, точно такой же, и тогда вы могли бы просто повторно использовать LibriSpeechDataset, или хотя бы частитот.Эта реализация набора данных берет данные в некотором формате zip, который содержит стенограммы в текстовых файлах и аудио в файлах ogg или wav.Он использует librosa для извлечения функций MFCC (или других типов функций).Я планировал реализовать это для Switchboard, а затем воспроизвести результаты, однако у меня еще не было времени и я не уверен, когда я доберусь до этого.Но если вы хотите попробовать это самостоятельно, я буду рад помочь вам, чем смогу.Отправной точкой было бы посмотреть на LibriSpeechDataset и понять, как выглядит его формат.

...