Цель моего проекта - определить, является ли входной звук произведенным человеком или нет, и какой это тип звука (речь, крик, крик и т. Д.). Итак, я узнал https://research.google.com/audioset//download.html, который предоставляет аудиосеть аудиозаписей с YouTube и CSV с индексами меток классов.
Моя проблема в том, что файлы набора данных представляют собой tfrecord файлы с этим форматом (как показано на странице, указанной выше):
контекст: {
особенность: {
ключ: "video_id"
значение: {
bytes_list: {
значение: [строка идентификатора видео YouTube]
}
}
}
особенность: {
ключ: "start_time_seconds"
значение: {
float_list: {
значение: 6.0
}
}
}
особенность: {
ключ: "end_time_seconds"
значение: {
float_list: {
значение: 16,0
}
}
}
особенность: {
ключ: "метки"
значение: {
int64_list: {
значение: [1, 522, 11, 172] # Значение меток можно найти здесь.
}
}
}
}
feature_lists: {
feature_list: {
ключ: "audio_embedding"
значение: {
особенность: {
bytes_list: {
значение: [128 8-битных квантованных функций]
}
}
особенность: {
bytes_list: {
значение: [128 8-битных квантованных функций]
}
}
}
... # Повторяется для каждой секунды сегмента
}
}
Итак, моя проблема заключается в том, чтобы понять, к какому классу аудио относится каждый фрагмент аудио кадра в этом файле tfrecords, и отобразить их таким образом, как [[audio1, 'Speech'], [audio2, 'Animal Sound'] ... ] тренировать модель NN.