Библиотеки анализа текста Java - PullRequest
13 голосов
/ 23 сентября 2010

Я ищу решение на основе Java для анализа предложений, чтобы определить, использовалось ли ключевое слово положительно или отрицательно.

Т.е. ключевым словом может быть «капуста» и предложение: -

«Мне нравится капуста, но не горох»

И я хотел бы, чтобы текстовый анализатор Java былкакой-то вид, чтобы зарегистрировать это как положительное.Можно ли для этого использовать библиотеки lucene (Hibernate-Search)?

Есть мысли?

Ответы [ 3 ]

16 голосов
/ 23 сентября 2010

Вы ищете "анализ настроений".Одна возможность - LingPipe , которая любезно ссылается на своих конкурентов также .Джефф Далтон также имеет большой список инструментов для обработки естественного языка в его блоге .

1 голос
/ 23 сентября 2010

Я сомневаюсь, что есть что-то подобное. Lucene определенно не может сделать это из коробки.

Как вы даже определяете"было ли ключевое слово использовано положительно или отрицательно" таким образом, чтобы его можно было оценить программно? Чтобы сделать это правильно, вам придется проанализировать текст на предмет его реального значения, которое является проблемой ИИ, которая даже не решается удаленно.

Полагаю, вы могли бы решить эту проблему приблизительно, просто выполнив статистический анализ того, будет ли ключевое слово чаще всего близко к положительным (например, хорошо, замечательно) или отрицательным (плохо, ненависть, дрянное, чертовски) ключевым словам, но даже там отрицания, сарказм и сложные структуры предложений будут проблематичными.

0 голосов
/ 23 сентября 2010

Взгляните на Mahout Taste , который основан на Lucene, но добавляет много того, что вам нужно из коробки. (правка) Я должен добавить, что Mahout Taste просто связан с тем, что вы ищете, а не на 100% соответствует.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...