Вам необходимо обработать сигналы FFT, чтобы определить, является ли звук хлопком или топотом.
Для сверточных нейронных сетей (CNN):
CNN могутизвлекать особенности из входов фиксированной длины.1D CNN с Max-Pooling лучше всего работают с данными сигнала (я лично использовал их для данных акселерометра).
Вы можете использовать их, если ваш вход имеет фиксированную длину и имеет существенные особенности.
Для рекуррентных нейронных сетей:
Следует использовать, когда сигнал имеет временную характеристику.
Временные характеристики (например) можно рассматривать таким образом дляпризнание хлопкаХлопок имеет немедленный высокий звук, сопровождаемый мягким звуком (когда хлопок заканчивается).RNN изучит эти две функции (упомянутые выше) в последовательности.А также хлопки являются последовательным действием (оно состоит из различных последовательных действий).
RNN и LSTM могут быть лучшим выбором, если они получают отличные функции.
Anгибридный Conv LSTM:
Этот NN является гибридом CNN и LSTM (RNN).Они используют CNN для извлечения признаков, а затем LSTM изучают эту последовательность.Функции, извлеченные CNN, также содержат временные функции.
Это может быть очень просто, если вы используете Keras.
Совет:
Как аудиоКлассификация выполнена, я также предложу использовать MFCC для извлечения функций.
Я думаю, вам следует попробовать все 3 подхода и посмотреть, какой из них подходит лучше всего.Скорее всего, RNN и ConvLSTM будут работать для вашего варианта использования.
Надеюсь, это поможет.