Безнадзорный анализ настроений - PullRequest
43 голосов
/ 13 октября 2010

Я читал много статей, объясняющих необходимость первоначального набора текстов, которые классифицируются как «положительные» или «отрицательные», прежде чем система анализа настроений действительно заработает.

МойВопрос в том, пытался ли кто-нибудь просто сделать элементарную проверку «положительных» прилагательных по сравнению с «отрицательными» прилагательными, принимая во внимание любые простые отрицатели, чтобы избежать классификации «неудовлетворенных» как положительных?Если да, то есть ли статьи, в которых обсуждается, почему эта стратегия нереалистична?

Ответы [ 7 ]

62 голосов
/ 14 октября 2010

A классическая статья Питера Терни (2002) объясняет метод проведения анализа настроений без присмотра (положительная / отрицательная классификация) с использованием только слов отлично и плохо как набор семян. Turney использует взаимную информацию других слов с этими двумя прилагательными для достижения точности 74%.

17 голосов
/ 13 октября 2010

Я не пробовал проводить неподготовленный анализ настроений, который вы описываете, но я бы сказал, что вы упрощаете проблему.Простого анализа прилагательных недостаточно, чтобы понять смысл текста;например, рассмотрим слово «глупый».В одиночку вы бы классифицировали это как отрицательное, но если бы обзор продукта имел «… [x] продукт заставляет их конкурентов выглядеть глупо, если они не думают об этой функции в первую очередь…», тогда настроение там определенно будет положительным,Более широкий контекст, в котором появляются слова, определенно имеет значение для чего-то подобного.Вот почему одного неподготовленного подхода к сумме слов (не говоря уже о еще более ограниченном наборе прилагательных) недостаточно для адекватного решения этой проблемы.

Предварительно классифицированные данные («данные обучения»)) помогает в том, что проблема переходит от попытки определить, является ли текст положительным или отрицательным настроением с нуля, к попытке определить, является ли текст более похожим на положительный текст или отрицательный текст, и классифицировать его таким образом.Другим важным моментом является то, что на текстовый анализ, такой как анализ настроений, часто сильно влияют различия характеристик текстов в зависимости от предметной области.Вот почему наличие хорошего набора данных для обучения (то есть точных данных из той области, в которой вы работаете, и, как мы надеемся, представляет тексты, которые вы собираетесь классифицировать), так же важно, как и создание хорошегоСистема для классификации.

Не совсем статья, но надеюсь, что это поможет.

7 голосов
/ 02 февраля 2012

Работа Turney (2002), упомянутая Ларсманом, является хорошей базовой.В более новом исследовании Li и He [2009] представляют подход, использующий скрытое распределение Дирихле (LDA) для обучения модели, которая может классифицировать общее настроение и тему статьи одновременно в полностьюбез присмотра.Точность, которой они достигают, составляет 84,6%.

2 голосов
/ 07 марта 2012

Я попробовал несколько методов анализа настроений для анализа мнений в Обзорах. Лучше всего для меня работал метод, описанный в книге Лю: http://www.cs.uic.edu/~liub/WebMiningBook.html В этой книге Лю и другие сравнивали многие стратегии и обсуждали разные статьи по анализу настроений и анализу мнений.

Хотя моя главная цель состояла в том, чтобы извлечь особенности из мнений, я внедрил классификатор настроений, чтобы обнаружить положительную и отрицательную классификацию этих функций.

Я использовал NLTK для предварительной обработки (Word tokenization, POS tagging) и создания триграмм. Затем я также использовал байесовские классификаторы в этом тесте, чтобы сравнить их с другими стратегиями, которые определил Лю.

Один из методов основан на пометке pos / neg на каждой триграмме, выражающей эту информацию, и использовании некоторого классификатора для этих данных. Другой метод, который я пробовал и работал лучше (точность около 85% в моем наборе данных), вычислял сумму баллов PMI (пунктуальной взаимной информации) для каждого слова в предложении и слов отлично / плохо как семена пос. / нег.

2 голосов
/ 22 ноября 2010

Дэвид,

Я не уверен, поможет ли это, но вы можете заглянуть в блог Джейкоба Перкина об использовании NLTK для анализа настроений.

2 голосов
/ 13 октября 2010

Я попытался определить ключевые слова, используя словарь аффекта, чтобы предсказать метку настроения на уровне предложения. Учитывая общность словарного запаса (не зависит от домена), результаты были только около 61%. Документ доступен на моей домашней странице.

В несколько улучшенной версии были рассмотрены наречия отрицания. Вся система под названием EmoLib доступна для демонстрации:

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

С уважением,

0 голосов
/ 18 сентября 2011

В анализе настроений нет волшебных «горячих клавиш», как в любом другом виде анализа текста, который стремится обнаружить основную «близость» куска текста.Попытка сократить проверенные методы анализа текста с помощью упрощенной «прилагательной» проверки или аналогичных подходов приводит к двусмысленности, неправильной классификации и т. Д., Что в конечном итоге приводит к плохой точности чтения настроений.Чем кратче источник (например, Twitter), тем сложнее проблема.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...