Сегментация голоса - PullRequest
       6

Сегментация голоса

4 голосов
/ 17 ноября 2011

Я помогаю ферме группировать петухов в группы в соответствии с их криком так, чтобы петухи с одинаковым криком жили вместе. Фермер сказал, что хочет знать, будут ли цыплята узнавать какое-либо поведение у других, если так, то всякий раз, когда он получает цыпленка, он помещает его в хорошую группу цыплят и надеется, что это окажет какое-то хорошее влияние на нового цыпленка. Моя работа состоит в том, чтобы записать сходство каждой группы, а через несколько недель сравнить результаты и увидеть все большее сходство в группах.

Моя идея - написать программу, которая дает оценку сходства для двух входных wav-файлов, поэтому каждый член может найти своего наиболее похожего соседа по комнате и объединиться в группы, а затем сгруппировать похожие группы, наконец, в несколько групп.

Я получил несколько криков по 3 петуха и проанализировал их спектрограммами (каждый петух кричал дважды):

петух A:

first crowing from cock A second crowing from cock A

член B:

first crowing from cock B second crowing from cock B

петух C:

first crowing from cock C second crowing from cock C

Прежде чем вычислять сходство, я хотел бы разбить скручивание на сегменты так, чтобы каждый сегмент сохранял степень частоты (которая будет использоваться для вычисления сходства позже). Мое текущее решение:

Шаг 1: , когда линия интенсивности прерывистая, звук будет разделен промежутками;
Шаг 2: при критическом изменении частоты это время будет рассматриваться как граница сегмента

Я думаю, что вышеуказанных шагов достаточно или нет. Я надеюсь, что у кого-то еще есть лучшее предложение и как я могу улучшить сегментацию. Есть ли какие-либо методы или алгоритмы, подходящие для моей ситуации? Спасибо!

Ответы [ 2 ]

2 голосов
/ 18 ноября 2011

Лучший подход - использовать некоторые методы распознавания речи. Я использовал это для проекта по распознаванию песен птиц. В моем случае я использовал HTK (Hidden Markov toolkit) для создания HMM, которые могли бы распознавать пение птиц. Вы можете изменить шкалу Мел, чтобы она была более похожа на ваш случай Шкала Мел (от MFCC) связана с человеческим голосом. Если вы выполняете поиск в Google, есть некоторые документы, связанные с птицами, которые изменяют масштаб Mel или Bark (PLP) в соответствии с голосовым трактом животного.

Вам понадобится много выборок, чтобы надежно настроить параметры HMM и проанализировать, сколько состояний являются лучшими. Я предлагаю иметь не менее 100 сэмплов для каждой из этих трех песен и использовать 3-излучающие состояния HMM. Я могу помочь вам настроить систему HMM. Пожалуйста, свяжитесь со мной.

Луис Уэбел ASR Labs www.asrlabs.com.br

1 голос
/ 18 ноября 2011

В прошлом году у нас было несколько голосовых проектов. Это может быть немного похоже. То, что я помню, используя инструменты машинного обучения и библиотеки, было очень полезным, например. Weka, Rapidminer, Encog. Стоит протестировать примеры с использованием перекрестной проверки. Параметры, которые могут стоить проверить: MFCC, YIN. Я думаю, что все связанные темы голосового распознавания могут быть полезны для вас:)

...