Могу ли я использовать NLTK, чтобы определить, является ли комментарий положительным или отрицательным? - PullRequest
8 голосов
/ 12 августа 2010

Можете ли вы показать мне простой пример, используя http://www.nltk.org/code, чтобы определить, соответствует ли строка счастливому или расстроенному настроению?

Ответы [ 4 ]

4 голосов
/ 12 августа 2010

NLTK не может быть из коробки, но если вы ищете какое-либо соответствующее исследование в этой области, взгляните на этот документ по Обнаружение оскорбительного языка . Те же методы могут быть адаптированы для обнаружения комментариев, которые не являются оскорбительными / не оскорбительными, но вместо этого счастливыми / несчастными. Основной пакет программного обеспечения, используемый в этом проекте для классификации текста, называется WEKA и использует несколько классификаторов, обученных на предыдущих примерах, чтобы определить, является ли язык оскорбительным или нет (и в этом методе используется настраиваемый порог). * * 1005

2 голосов
/ 09 августа 2011

Pattern - тоже кое-что стоящее для тест-драйва: вы можете увидеть два эксперимента по анализу мнений прямо на домашней странице проекта.

http://www.clips.ua.ac.be/pages/pattern-examples-100days

http://www.clips.ua.ac.be/pages/pattern-examples-elections

0 голосов
/ 18 августа 2010

Вы ищете метод, который использует классификатор машинного обучения, чтобы определить, является ли фрагмент текста положительным или отрицательным.Различные исследовательские группы предпринимали различные попытки (например, http://research.yahoo.com/pub/2387 и http://lingcog.iit.edu/doc/appraisal_sentiment_cikm.pdf). Мы можем получить точность от 80% до 90% при определении того, является ли обзор продукта положительным или отрицательным.

Из-за краткости вашего вопроса для меня не очевидно, является ли определение положительного или отрицательного отзыва о продукте той же задачей, которую вы пытаетесь выполнить, или просто связанной задачей, но я быпредложите начать с простой классификации слов с байесовским классификатором (с которой NLTK должен уметь справляться), а затем улучшите ваши методы в зависимости от того, как получается точность.

К сожалению, яникогда не использовал NLTK (ни Python в этом отношении), поэтому я не могу дать вам пример кода того, как использовать NLTK для этого.

0 голосов
/ 12 августа 2010

Nopey.

Это задача, выходящая далеко за пределы возможностей NLTK или любого грамматического синтаксического анализатора, который известен или может быть реально представлен. Взгляните на NLTK Book , чтобы увидеть, какие задачи он может выполнить, которые далеки от вашей заявленной цели.

Как дешевый пример:

Мне очень понравилось использовать вашу бумагу для дрессировки моей собаки.

Разберитесь с NLTK, и вы получите

[('I', 'PRP'), ('really', 'RB'), ('enjoyed', 'VBD'), 
 ('using', 'VBG'), ('your', 'PRP$'), ('paper', 'NN'), 
 ('to', 'TO'), ('train', 'VB'), ('my', 'PRP$'), ('dog', 'NN')]

Где дерево разбора скажет мне, что «наслаждение» - это центральный (прошедшее время) глагол простого предложения. Наслаждаться чем-то - это хорошо. Тренировать что-то - это вообще хорошо. Герунды, существительные, сравнительные и тому подобное относительно нейтральны. Так что дайте этому Хороший балл 0,90.

За исключением того, что я действительно имею в виду, что я либо бью свою собаку вашей бумагой, либо позволяю ей выделяться на бумаге, которую вы, вероятно, считаете плохой вещью.

Наймите человека для этой задачи распознавания.

Добавлено для тех, кто считает, что даже обученные классификаторы очень полезны :

Классифицируйте эту реальную запись из реального корпуса отзывов клиентов, используя любой классификатор, который вам понравился, для любого набора данных, который вам нравится:

Эта камера продолжает автофокусировку в автоматический режим с гудящим звуком, который не может быть остановлено Было бы действительно хорошо, если они дали возможность прекратить эту автофокусировку. Если ты хочешь иметь дату и время на образ, это только через их программное обеспечение, которое считывает дату изображения и время из метаданных изображения. Так что если вы используете кард-ридер и копировать изображения - вы должны еще раз открыть их через их программное обеспечение для поставить дату и время. В этом тоже нет прямого способа добавить дату и время - Вы должны сказать «печать изображений» в другой каталог, в котором есть возможность указать дату и время , Даже малейший из коктейлей полностью искажает ваш образ. В помещении изображения не были такими четкими. Вы должны иметь вспышку, чтобы получить его, хотя Ваша комната хорошо освещена. Крышка объектива действительно раздражает. клипы взятый всегда будет иметь некоторый «шум» в это - вы не можете избежать этого.

Худшая классификация настроения, которую я получил, была "абсолютно двусмысленной", но люди легко могут определить, что это совсем не комплимент. Это был не случайно выбранный элемент данных, а тот, который был выбран для отрицательного смещения без «ненависти», «suxz» или подобных.

...