Привет, я всего лишь Layman в случае обработки аудио, поэтому мой вопрос будет очень простым.
У меня есть аудио из 2 групп X и Y с аудио-сэмплами .wav, и мне нужно сделать модель, которая будет правильно классифицировать звук X или Y.
Я понял, как загружать данные в список, а затем преобразовал их в Dataframe. У меня есть 2 столбца (во втором - 8000 элементов в каждой строке).
0 1
0 2000 [0.1329449, 0.14544961, 0.19810106, 0.21718721...
1 2000 [-0.30273795, -0.6065889, -0.4967722, -0.47117...
2 2000 [-0.07037315, -0.6685449, -0.48479277, -0.4535...
Я основал эти полезные функции из модуля python_speech_features:
rate,signal = sw.read(i)
features = psf.base.mfcc(signal)
features = psf.base.fbank(features)
features = psf.base.logfbank(features[1])
features = psf.base.lifter(features,L=22)
features = psf.base.delta(features,N=13)
features = pd.DataFrame(features)
- Какие другие функции я должен извлечь из аудиофайлов?
- Что стоит визуализировать здесь, чтобы раскрыть некоторые закономерности? например. можно ли визуализировать какую-то функцию, которая может показать разницу между А и В?
- Каков наилучший способ сделать эту классификацию, лучше ли делать их с NN, или традиционные модели будут удовлетворять?
Я буду признателен за любую помощь
Также будут приветствоваться дополнительные ресурсы для самообучения.