Извлечь особенности в Librosa в определенном порядке c - PullRequest
0 голосов
/ 27 февраля 2020

Нам нужно извлечь функции в librosa следующим образом:

  1. Чтобы обработать наши аудио фрагменты как изображения, нам нужно перенести данные в область изображений.
  2. Мы преобразовываем наши аудиоданные в представления спектрограмм для обучения наших моделей. Спектрограммы дискретизируются с использованием окна Ханна и 129 частотных бинов по оси частот (ось Y).
  3. Поскольку большинство фонем на языке Engli sh не превышают 3 кГц в разговорной речи, мы включили в спектрограммы только частоты до 5 кГц.
  4. Ось времени (ось X) отображается с частотой 50 пикселей в секунду.
  5. Мы разбиваем каждую аудиопоследовательность на непересекающиеся десятисекундные сегменты и отбрасываем все сегменты короче десяти секунд, поскольку мы не хотели вводить заполнение, которое может напоминать неестественные паузы или молчание.
  6. Полученные изображения сохраняются в виде файлов PNG 500 × 129 PNG без потерь, где интенсивности частот отображаются в восьмибитном диапазоне оттенков серого.

Как выполнить эти шаги в Python?

y, sr = librosa.load(file)

y = librosa.feature.melspectrogram(y=y, sr=sr)

Как

...