Question

Я новичок в распознавании речи.
Я планирую извлечь спектр Mel аудиоданных, но я распечатываю img.shape и нахожу, что его размер равен (650, 20000, 4), и последнее измерение 4, я не знаю почему.

Ниже приведена моя кодовая функция.

def read_wav_data(filename):
    y, sr = librosa.load(filename, sr=None)
    return y, sr

def GetFrequencyFeature5(y, sr):
    melspec = librosa.feature.melspectrogram(y, sr, n_fft=1024, hop_length=16, n_mels=32, fmin=50, fmax=350)
    logmelspec = librosa.power_to_db(melspec)
    print(logmelspec)
    print(logmelspec.shape)
    plt.figure()
    file = librosa.display.specshow(logmelspec, sr=sr, x_axis='time', y_axis='mel', fmin=50, fmax=350)
    plt.title('Beat wavform')
    plt.save(file.png)
    # img = mpimg.imread(file.png)
    plt.show()
    # return img

Последнее измерение извлеченного спектра Mel составляет 4

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Последнее измерение извлеченного спектра Mel составляет 4

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы