Я новичок в области машинного обучения. В настоящее время я пытаюсь внедрить систему определения языка аудио, основанную на коэффициентах MFCC, delta, delta delta и Mel Spectrum любого аудиофайла. Эти функции извлекаются с помощью librosa. Librosa возвращает 2D матрицу MFCC. Проблема в том, что я хочу обучить их модели гауссовой смеси. Библиотека Sci-kit принимает входные данные в формате (n_samples, n_features)
, но у меня есть матрица D вида (n_samples, n_mfcc, n_time)
, возвращаемая librosa.features.mfcc()
. Как я могу предоставить 3D вход для GMM?
Также есть ли способ, чтобы я мог отправить все 4 функции, упомянутые выше, в модель?