Как реализовать тег POS - PullRequest
       28

Как реализовать тег POS

6 голосов
/ 20 января 2011

Я ищу лучший способ на основе PHP для сканирования большого количества текстовых записей (объявлений) и извлечения ключевых слов - кто-нибудь знает о тегах части речи?Есть ли способ сделать это с помощью PHP?

Я сканирую много онлайн-объявлений, но ни одной категории!Чтобы ускорить процесс категоризации, я хочу установить тэгер Part-of-Speech (http://en.wikipedia.org/wiki/Part-of-speech_tagging). По сути, это классные алгоритмические программные пакеты для анализа текста, которые могут сказать мне, какие слова являются существительными (например, «Квартира», «Автомобиль »,« Собака »и т. Д.) И какие слова являются нежелательными, если, и, но и т. Д., НО ...

Существуют онлайн-службы тегов - один от Yahoo, который, кажется, получаетменьше любви в наши дни - еще один от XEROX. Однако я действительно заинтересован в установке моей собственной библиотеки / программного обеспечения и подключении его к моему веб-приложению.

Кто-нибудь знает хороший способ установки POS-тегов, который работаетс веб-приложением PHP? Мне не терпится выяснить это, поэтому любая информация, совет или другая мудрость, которая у вас есть, действительно ценится!

Вот список МНОГО различных программ для POS: http://www -nlp.stanford.edu / links / statnlp.html # Taggers (см. «POS Taggers»)

Спасибо, что прочитали это!

Ответы [ 2 ]

7 голосов
/ 20 января 2011

Ян Барбер внедрил Brill Tagger в PHP, который он представляет на своем PHP / ir сайте, где он описывает его использование для анализа твитов.

2 голосов
/ 30 апреля 2011

Да, в настоящее время я использую тег Brill.Это работает в некоторой степени, хотя я хотел бы выяснить, как внести свой вклад в его набор правил.Это делает много ошибок, но все еще обеспечивает приблизительно 85% точных данных.Моя единственная проблема заключается в том, что он МЕДЛЕННЫЙ!

Он понимает это правильно, когда рассчитывает на слова с двойным значением - однако существует множество неучтенных соглашений, таких как, например, контрастные предложения о соединении, например, я могу сказатьо ком-то отрицательно, но после запятой скажите что-то, что меняет полярность на положительную или нет.Компьютер не видит идиомы.

...