Я ищу алгоритм, чтобы определить, соответствует ли аудиовход в реальном времени одной из 144 заданных (и удобно различимых) фонемных пар.
Предпочтительно самый низкий уровень, который выполняет работу.
Я разрабатываю радикальное / экспериментальное программное обеспечение для обучения музыке для iPhone / iPad.
Моя музыкальная система состоит из 12 согласных фонем и 12 гласных фонем, продемонстрированных здесь . Это дает 144 возможных пары фонем. Студент должен петь правильную пару фонем «laa duu bee» и т. Д. В ответ на зрительный стимул.
Я провел много исследований в этой области. Похоже, лучше всего было бы использовать одну из оболочек Sphinx для iOS ( Приложение для iPhone ›Добавить распознавание голоса? - лучший источник информации, который я нашел ). Однако я не понимаю, как бы я адаптировал такой пакет. Может ли кто-нибудь, имеющий опыт использования одной из этих технологий, дать краткое изложение шагов, которые потребуются?
Будет ли обучение необходимо пользователю? Я бы не подумал, поскольку это такая элементарная задача, по сравнению с полными языковыми моделями тысяч слов и гораздо большей и более тонкой базы фонем. Однако было бы приемлемо (не идеально), чтобы пользователь обучил 12 пар фонем: {consonant1 + vowel1, consonant2 + vowel2, ..., consonant12 + vowel12}. Полный 144 будет слишком обременительным.
Есть ли более простой подход? Я чувствую, что использование полнофункционального распознавателя непрерывной речи использует кувалду, чтобы сломать орех. Было бы намного элегантнее использовать минимальные технологии, которые могли бы решить эту проблему.
Так что на самом деле я ищу любое программное обеспечение с открытым исходным кодом, которое распознает фонемы.
PS Мне нужно решение, которое работает в режиме реального времени. поэтому, даже когда они поют ноту, сначала она мигает, чтобы проиллюстрировать, что она подобрала пару фонем, которые были спеты, а затем она светится, чтобы показать, поют ли они правильную высоту ноты