Чистая статистика или движок обработки естественного языка - PullRequest
2 голосов
/ 08 июля 2011

Какие статистические движки дают лучшие результаты, чем набор инструментов OpenNLP, если таковые имеются?То, что я ищу, - это механизм, который выбирает ключевые слова из текстов и обеспечивает основание на этих глаголах и существительных, возможно, обработка естественного языка не является подходящим способом.Движок также должен работать на разных языках.

Ответы [ 4 ]

3 голосов
/ 10 июля 2011

Возможно, вы ищете проект Snowball , в котором были разработаны стеммеры для различных языков.

2 голосов
/ 10 июля 2011

Если вы ищете код Java, я могу порекомендовать набор инструментов Стэнфорда .Их POS tagger работает для английского, немецкого, китайского и арабского языков (хотя я использовал его только для английского языка) и включает в себя (только для английского) лемматизатор.довольно высока и скорость не так уж плоха для решений на основе Java;основными проблемами иногда являются нестабильные API-интерфейсы и интенсивное использование памяти.

2 голосов
/ 09 июля 2011

LingPipe, вероятно, стоит рассматривать как полноценный инструмент НЛП.

Однако, если все, что вам нужно, это найти глаголы и существительные и поставить их в основу, тогда вы можете просто 1) разбить текст на части 2) запустить POStagger 3) запустить стемер

Инструменты Стэнфорда могут сделать это для нескольких языков, я верю, и NLTK будет быстрым способом опробовать это.

Однако вы должны быть осторожны спросто после глаголов и существительных - что вы делаете с существительными и многословными существительными?В идеале пакет nlp может справиться с этим, но многое зависит от домена, в котором вы работаете. К сожалению, многие NLP определяют, насколько хороши ваши данные.

1 голос
/ 10 июля 2011

У меня был хороший опыт работы с TreeTagger:

http://www.ims.uni -stuttgart.de / Projekte / corplex / TreeTagger /

Он прост в использовании, быстрее, чем у Стэнфорда, и относится к «хорошим» стеммерам / тэггерам. Он выполняет все операции сразу: токенизация / определение / тегирование.

...