Как сделать распознавание китайской речи в iPhone - PullRequest
8 голосов
/ 01 августа 2011

Может ли OpenEars распознавать китайскую речь? Смотрите здесь: http://www.politepix.com/openears

1 Ответ

6 голосов
/ 01 августа 2011

Я разработчик OpenEars. OpenEars только распознает речь на английском языке из коробки. В дистрибутиве Pocketsphinx есть акустическая модель Mandarin, которую использует OpenEars, поэтому может заменить ее на английскую акустическую модель в инструкциях, , если , у вас есть свой собственный метод для создание совместимой языковой модели и фонетического словаря, и вы готовы к самостоятельным исследованиям и тестированию. Акустическая модель называется tdt_sc_8k. Вы бы использовали его вместо папки в инструкциях под названием hub4wsj_sc_8k, но вам нужно сделать еще кое-что, чтобы заставить его работать.

Если вы хотите попробовать это, вам нужно прочитать документацию Sphinx на речевом сайте CMU, чтобы получить четкое представление о взаимосвязи между акустической моделью, языковой моделью и фонетический словарь, и выяснить, как создать совместимую языковую модель. Возможно, вы сможете начать с фонетического словаря на этой странице в качестве основного словаря, из которого вы можете создавать фонетические словари меньшего размера для iPhone и впоследствии языковые модели, поскольку он предположительно совместим с акустической моделью. Языковая модель на этой странице слишком велика для OpenEars. Для тестирования я бы, вероятно, создал бы модель управления и контроля из примерно 100 слов. Вы должны быть в состоянии использовать Инструмент базы знаний Sphinx для создания языковой модели из совокупности слов, из которых вы уже сделали фонетический словарь.

Следующим шагом будет проверка вашей акустической модели, языковой модели и фонетического словаря как известных работающих в обычной установке Pocketsphinx, например, в Linux. Если вы получите хорошие результаты с этим, вы можете перейти на форум OpenEars, и я постараюсь помочь вам заставить его работать в OpenEars (там нет никаких гарантий, так как эта акустическая модель никогда не была частью тестирования, но я тоже могу » не думаю о конкретной причине, что это не сработает). Класс OpenEars LanguageModelGenerator определенно будет работать только с английским языком. Вы несете ответственность за то, чтобы гарантировать, что акустическая модель лицензирована таким образом, чтобы не препятствовать ее использованию в приложении App Store, если именно так вы планируете распространять свой проект.

Удачи!

РЕДАКТИРОВАТЬ: Я хотел обновить это, чтобы вы знали, что акустическая модель Mandarin теперь является частью OpenEarsExtras , и чтобы сказать, что LanguageModelGenerator теперь обновлен, чтобы вы могли предоставьте ему произвольный основной фонетический словарь по вашему выбору, если у вас есть один с правильным форматированием (то есть слово, за которым следует табуляция, за которой следует фонемы, за которым следует перевод строки в алфавитном порядке), что должно значительно облегчить использование динамического Language Modeler с языками, отличными от английского, если у вас уже есть акустическая модель.

Способ работы должен состоять в том, чтобы у вас был словарь поиска на нужном вам языке, аналогичный cmu07a.dic, который является английским словарем поиска по умолчанию, а LanguageModelGenerator обрабатывает все остальное, поэтому мое утверждение об этом требует нескольких шаги и исследования не обязательно должны иметь место, если у вас есть фонетический словарь, из которого можно искать произношения. Отзывы о том, как это работает для вас на практике, будут очень благодарны на форуме OpenEars (пожалуйста, не пишите отзывы и не сообщайте об ошибках здесь при переполнении стека).

...