Предварительно рассчитанные функции, выпущенные с помощью AudioSet, являются «вложениями» из глубокой net, которая была обучена предсказывать теги видеоуровня из звуковых дорожек (см. https://arxiv.org/abs/1609.09430). Уровень внедрения дополнительно обрабатывается через PCA, чтобы уменьшить размерность; эта обработка включена для обеспечения совместимости функций с версиями https://research.google.com/youtube8m/. Итак, vggish_model.ckpt дает вес VGG-подобного глубокого CNN, используемого для вычисления вложения из патчей mel-спектрограммы, а vggish_pca_params.npz - основы для преобразования PCA.
Единственный контент, выпущенный как часть AudioSet - это предварительно рассчитанные функции встраивания. Если вы обучаете модель на основе этих функций, а затем хотите использовать ее для классификации новых входных данных, вы должны преобразовать новые входные данные в тот же домен, и, таким образом, вы должны использовать vggish_model и vggish_pca_params.
Если бы AudioSet включал формы сигнала, ничего из этого не понадобилось бы. Но Условия использования YouTube не позволяют загружать и распространять контент своих пользователей.