НЛП: качественно «положительный» против «отрицательный» предложение - PullRequest
13 голосов
/ 23 сентября 2008

Мне нужна ваша помощь в определении наилучшего подхода к анализу отраслевых предложений (например, обзоров фильмов) на предмет «положительный» против «отрицательный». Я уже видел такие библиотеки, как OpenNLP, но он слишком низкоуровневый - он просто дает мне базовую композицию предложений; что мне нужно, это структура более высокого уровня: - надеюсь, со списками слов - надеюсь, пригодный для обучения на моем наборе данных

Спасибо!

Ответы [ 2 ]

23 голосов
/ 24 сентября 2008

То, что вы ищете, обычно называют Анализ настроений . Как правило, анализ настроений не в состоянии справиться с деликатными тонкостями, такими как сарказм или ирония, но он вполне оправдан, если вы добавите в него большой набор данных.

Анализ настроений обычно требует небольшой предварительной обработки. По крайней мере, токенизация, обнаружение границ предложений и маркировка части речи. Иногда синтаксический анализ может быть важным. Правильное выполнение - это целая отрасль исследований в области компьютерной лингвистики, и я бы не советовал вам придумывать собственное решение, если вы сначала не потратите время на изучение области.

В OpenNLP есть несколько инструментов, помогающих анализировать настроения, но если вы хотите что-то более серьезное, вам следует изучить инструментарий LingPipe . Он имеет некоторую встроенную SA-функциональность и хороший учебник . И вы можете обучить его на своем собственном наборе данных, но не думайте, что это совершенно тривиально: -).

Поиск в Google по термину, вероятно, также даст вам некоторые ресурсы для работы. Если у вас есть более конкретный вопрос, просто спросите, я внимательно слежу за nlp-тегом; -)

6 голосов
/ 25 января 2009

Некоторые подходы к анализу настроений используют стратегии, популярные в других задачах классификации текста. Наиболее распространенным является преобразование вашего обзора фильма в вектор слов и его подача в алгоритм классификатора в качестве обучающих данных. Самые популярные пакеты для анализа данных могут помочь вам здесь. Вы можете взглянуть на этот учебник по классификации настроений , иллюстрирующий, как провести эксперимент с использованием открытого источника RapidMiner toolkit .

Кстати, существует хороший набор данных , предоставленный для исследовательских целей, связанных с выявлением мнения о рецензиях на фильмы. Он основан на отзывах пользователей IMDB, и вы можете проверить множество связанных исследовательских работ в области и как они используют набор данных.

Стоит помнить, что об эффективности этих методов можно судить только с точки зрения статистики, так что вы можете в значительной степени предположить, что будут неправильные классификации и случаи, когда мнение трудно определить. Как уже отмечалось в этой теме, обнаружение таких вещей, как ирония и сарказм, действительно может быть очень трудным.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...