Question

Я пытаюсь разобраться в некоторых аспектах классификации аудио, и пришли "vggish_model.ckpt" и "vggish_pca_params.npz". Я пытаюсь иметь хорошее понимание этих двух. Являются ли они частью tenorflow или Google Audio Set? Зачем мне их использовать при создании аудио функций? Я не мог видеть никакой документации о них!

dpwe · Answer 1 · 07 апреля 2020

Предварительно рассчитанные функции, выпущенные с помощью AudioSet, являются «вложениями» из глубокой net, которая была обучена предсказывать теги видеоуровня из звуковых дорожек (см. https://arxiv.org/abs/1609.09430). Уровень внедрения дополнительно обрабатывается через PCA, чтобы уменьшить размерность; эта обработка включена для обеспечения совместимости функций с версиями https://research.google.com/youtube8m/. Итак, vggish_model.ckpt дает вес VGG-подобного глубокого CNN, используемого для вычисления вложения из патчей mel-спектрограммы, а vggish_pca_params.npz - основы для преобразования PCA.

Единственный контент, выпущенный как часть AudioSet - это предварительно рассчитанные функции встраивания. Если вы обучаете модель на основе этих функций, а затем хотите использовать ее для классификации новых входных данных, вы должны преобразовать новые входные данные в тот же домен, и, таким образом, вы должны использовать vggish_model и vggish_pca_params.

Если бы AudioSet включал формы сигнала, ничего из этого не понадобилось бы. Но Условия использования YouTube не позволяют загружать и распространять контент своих пользователей.

Что такое vggish_model.ckpt и vggish_pca_params.npz

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Что такое vggish_model.ckpt и vggish_pca_params.npz

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы