Я ищу лучший способ на основе PHP для сканирования большого количества текстовых записей (объявлений) и извлечения ключевых слов - кто-нибудь знает о тегах части речи?Есть ли способ сделать это с помощью PHP?
Я сканирую много онлайн-объявлений, но ни одной категории!Чтобы ускорить процесс категоризации, я хочу установить тэгер Part-of-Speech (http://en.wikipedia.org/wiki/Part-of-speech_tagging). По сути, это классные алгоритмические программные пакеты для анализа текста, которые могут сказать мне, какие слова являются существительными (например, «Квартира», «Автомобиль »,« Собака »и т. Д.) И какие слова являются нежелательными, если, и, но и т. Д., НО ...
Существуют онлайн-службы тегов - один от Yahoo, который, кажется, получаетменьше любви в наши дни - еще один от XEROX. Однако я действительно заинтересован в установке моей собственной библиотеки / программного обеспечения и подключении его к моему веб-приложению.
Кто-нибудь знает хороший способ установки POS-тегов, который работаетс веб-приложением PHP? Мне не терпится выяснить это, поэтому любая информация, совет или другая мудрость, которая у вас есть, действительно ценится!
Вот список МНОГО различных программ для POS: http://www -nlp.stanford.edu / links / statnlp.html # Taggers (см. «POS Taggers»)
Спасибо, что прочитали это!