НЛП инструменты программирования с использованием PHP? - PullRequest
11 голосов
/ 16 декабря 2010

С тех пор как появились большие веб-приложения, поиск данных (и молниеносный и точный поиск) стал одной из самых важных проблем в веб-приложениях. Некоторое время я работал с Lucene.NET , который является портом C # проекта Lucene .

Я также работаю с использованием PHP, используя Lucene API Zend Framework , что подводит меня к моему вопросу. В большинстве случаев для обеспечения хорошей индексации нам необходимо использовать некоторые инструменты НЛП, такие как tokenizing , lemmatizing , и многие другие вопросы:

Знаете ли вы о какой-либо хорошей среде программирования / наборе инструментов НЛП, использующей PHP?

PS: я хорошо знаком с Zend API для Lucene, но правильная индексация данных - это не просто хранение и использование в Lucene, вам необходимо выполнить некоторые дополнительные задачи, подобные указанным выше.

Ответы [ 3 ]

7 голосов
/ 18 декабря 2010

Я бы посоветовал вам взглянуть на Solr , который является наилучшей практикой реализации Lucene.Solr использует API на основе REST, который также имеет очень хороший клиент PHP .Это позволит вам использовать возможности Lucene без необходимости выполнять какие-либо низкоуровневые программы для получения требуемой мощности NLP.Кроме того, вы, вероятно, захотите получить транковую версию Solr, поскольку разработка NLP сейчас очень активна и новые возможности добавляются каждый день.

4 голосов
/ 16 декабря 2010

Zend имеет полный порт lucene для PHP. Смотри документы здесь .

0 голосов
/ 14 марта 2011

Похоже, вы ищете то же самое, что я гуглил несколько месяцев назад: D ... Я работаю над проектом на основе php / zend с Solr (через php-solr-client lib), и до сих пор нетнашел что-то в php для продвинутого НЛП.Что касается базовых вещей, как все упоминают, вы можете обойтись без Solr (стемминг, облака тегов / облака фраз, токенизация и т. Д.), И есть несколько основных, но полезных библиотек php для обработки текста (ничего особенного, лучше полагатьсяна сам Solr) ... но если вы ищете больше алгоритмического / семантического / чувства NLP-анализа, я предлагаю вам немного перейти от PHP и перейти на Java, так как есть больше библиотек, которые могут помочь вам в этой области (таких как OpenNLP).В случае, если вы ищете что-то новое, вы, возможно, захотите взглянуть на Mahout:

http://www.lucidimagination.com/blog/2010/03/16/integrating-apache-mahout-with-apache-lucene-and-solr-part-i-of-3/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...