Обучите набор данных аудиосети Google для классификации звука - PullRequest
0 голосов
/ 22 апреля 2019

Цель моего проекта - определить, является ли входной звук произведенным человеком или нет, и какой это тип звука (речь, крик, крик и т. Д.). Итак, я узнал https://research.google.com/audioset//download.html, который предоставляет аудиосеть аудиозаписей с YouTube и CSV с индексами меток классов.

Моя проблема в том, что файлы набора данных представляют собой tfrecord файлы с этим форматом (как показано на странице, указанной выше):

контекст: { особенность: { ключ: "video_id" значение: { bytes_list: { значение: [строка идентификатора видео YouTube] } } }

особенность: { ключ: "start_time_seconds" значение: { float_list: { значение: 6.0 } } } особенность: { ключ: "end_time_seconds" значение: { float_list: { значение: 16,0 } } } особенность: { ключ: "метки" значение: { int64_list: { значение: [1, 522, 11, 172] # Значение меток можно найти здесь. } } } }

feature_lists: { feature_list: { ключ: "audio_embedding" значение: { особенность: { bytes_list: { значение: [128 8-битных квантованных функций] } } особенность: { bytes_list: { значение: [128 8-битных квантованных функций] } } } ... # Повторяется для каждой секунды сегмента }

}

Итак, моя проблема заключается в том, чтобы понять, к какому классу аудио относится каждый фрагмент аудио кадра в этом файле tfrecords, и отобразить их таким образом, как [[audio1, 'Speech'], [audio2, 'Animal Sound'] ... ] тренировать модель NN.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...