Отказ от ответственности: Полный начинающий с нейронными сетями и аудио представлением. Пожалуйста, потерпите меня.
У меня есть идея для моей дипломной работы бакалавра (MIR), которая включает в себя применение ритмического паттерна, основанного на времени, для ограничения того, где акустическая модель на основе CNN обнаруживает начала / смещения. Проблема в том, что мне трудно понять, как реализовать эту концепцию.
Первоначальный план состоял в том, чтобы просто вставить и спектрограмму, и шаблон в CNN, и надеюсь, что он его обрабатывает, но я неЯ не знаю, в каком формате должен быть шаблон. Я знаю, что CNN лучше всего обрабатывают изображения, но исходный формат этого шаблона основан на времени (ударов в минуту / секунду). Можно ли представить это число как изображение для сравнения со спектрограммой? Если да, то в каком формате? Или я должен решить эту проблему по-другому? Заранее спасибо!