Нам нужно извлечь функции в librosa следующим образом:
- Чтобы обработать наши аудио фрагменты как изображения, нам нужно перенести данные в область изображений.
- Мы преобразовываем наши аудиоданные в представления спектрограмм для обучения наших моделей. Спектрограммы дискретизируются с использованием окна Ханна и 129 частотных бинов по оси частот (ось Y).
- Поскольку большинство фонем на языке Engli sh не превышают 3 кГц в разговорной речи, мы включили в спектрограммы только частоты до 5 кГц.
- Ось времени (ось X) отображается с частотой 50 пикселей в секунду.
- Мы разбиваем каждую аудиопоследовательность на непересекающиеся десятисекундные сегменты и отбрасываем все сегменты короче десяти секунд, поскольку мы не хотели вводить заполнение, которое может напоминать неестественные паузы или молчание.
- Полученные изображения сохраняются в виде файлов PNG 500 × 129 PNG без потерь, где интенсивности частот отображаются в восьмибитном диапазоне оттенков серого.
Как выполнить эти шаги в Python?
y, sr = librosa.load(file)
y = librosa.feature.melspectrogram(y=y, sr=sr)
Как