Я думал, что отвечу на этот вопрос, так как у него есть несколько голосов, хотя, основываясь на других вопросах Кристины, я не думаю, что это будет пригодный для нее ответ, поскольку языковая модель на 50 000 слов почти наверняка не будет иметьприемлемая частота ошибок в словах или скорость распознавания (или, скорее всего, даже долгая функция) с системами распознавания в приложении для iOS, которые в настоящее время используют этот формат языковой модели, из-за аппаратных ограничений.Я подумал, что это стоило документировать это, потому что я думаю, что это может быть полезно для тех, кто использует платформу, где сохранение словарного запаса такого размера в памяти является более жизнеспособной вещью, и, возможно, это будет возможность для будущих моделей устройств.
Нет такого веб-инструмента, о котором я знаю, такого как Инструмент базы знаний Sphinx, который бы взламывал текстовый корпус из 50000 слов и возвращал языковую модель ARPA.Но вы можете получить уже законченную модель языка DMP из 64 000 слов (которую можно использовать со Sphinx в командной строке или в других реализациях платформы так же, как файл ARPA .lm), выполнив следующие шаги:
- Загрузите эту языковую модель с речевого сайта CMU:
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/HUB4_trigram_lm.zip
В этой папке находится файл с именем language_model.arpaformat.DMP, который будет вашимязыковая модель.
Загрузите этот файл с речевого сайта CMU, который станет вашим словарем произношения:
https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/pocketsphinx/model/lm/en_US/cmu07a.dic
Преобразуйте содержимое cmu07a.dic во все заглавные буквы.
Если вы хотите, вы также можете урезать словарь произношения, удалив из него все слова, которые не найдены в корпусе language_model.vocabulary (это будет проблемой регулярных выражений).Эти файлы предназначены для использования с одной из акустических моделей Sphinx на английском языке.
Если желание использовать модель на английском языке из 50 000 слов основано на идее выполнения какого-либо обобщенного распознавания речи с большим словарным запасоми не из-за необходимости использовать очень конкретные 50000 слов (например, что-то специализированное, например, медицинский словарь или список контактов из 50000 записей), этот подход должен дать такие результаты, если оборудование сможет с этим справиться.Вероятно, будут некоторые настройки Sphinx или Pocketsphinx, которые необходимо будет изменить, чтобы оптимизировать поиск по размеру модели.