В дополнение к этому я не уверен, как реализовать эти функции.Что я хотел бы сделать, это получить необходимые функции и сделать один длинный векторный вход для нейронной сети.
Для каждого образца у вас должна быть двумерная матрица MFCC, такая как N x TX no_mfccs (вваш случай no_mfccs = 20);чтобы превратить его в один вектор, различные исследователи берут статистику, такую как среднее, переменная, IQR и т. д., чтобы уменьшить размерность объекта.Некоторые также моделируют его с использованием многомерной регрессии, а некоторые подгоняют его к модели гауссовой смеси.Это зависит от следующего этапа.В вашем случае вы можете использовать статистику для преобразования в один вектор
ИЛИ Как сказал Parthosarathi, вы можете использовать LSTM для сохранения последовательной информации во временных рамках.
Однако этотакже возможно отображение цветов, поэтому может быть также возможно распознавание изображения или это больше нацелено на речь, а не на распознавание говорящего?
Я не буду рекомендовать использовать спектрограмму (изображение) в качествесоединить вектор с нейронной сетью, поскольку визуальные изображения и спектрограммы не накапливают визуальные объекты и информацию о звуковых событиях одинаково.
при передаче изображения в нейронную сеть предполагается, что свойства (значения пикселей) изображения имеют одинаковое значение независимо от их местоположения.Но в случае спектрограммы расположение объекта имеет большое значение.
Например, перемещение частот мужского голоса вверх может изменить его значение от мужчины к ребенку.Следовательно, пространственная инвариантность, которую обеспечивает 2D CNN, может не работать так же хорошо для этой формы данных.Чтобы узнать больше об этом, обратитесь: Что не так с CNN и спектрограммами для обработки звука?