Анализ настроений данного текста - PullRequest
1 голос
/ 13 февраля 2012

В этой теме много веток.Но также я публикую еще один.Вся эта публикация может быть способом анализа настроений, но я не нашел способа.

Я хочу реализовать методы анализа настроений.Поэтому я бы попросил показать мне путь.Во время моего исследования я обнаружил, что этот используется в любом случае.Я предполагаю, что байесовский алгоритм используется для вычисления положительных слов и отрицательных слов и вычисления вероятности того, что предложение будет положительным или отрицательным, используя пакет слов.

Это только для слов, я думаю, что мы должны выполнить языковую обработкутоже.Так есть кто-нибудь, кто имеет больше знаний?Если да, можете ли вы привести меня с некоторыми алгоритмами с их ссылками для справки, чтобы я мог реализовать.Что-нибудь конкретное, что может помочь мне в моем анализе.

Также можете ли вы предпочесть мне язык, с которым я могу работать?Некоторые говорят, что Java сравнительно трудоемка, поэтому они не рекомендуют Java для работы.

Любая помощь очень ценится.

Ответы [ 3 ]

5 голосов
/ 13 февраля 2012

Прежде всего, анализ настроений проводится на различных уровнях, таких как документ, предложение, фраза и уровень возможностей.Над кем ты работаешь?Есть много разных подходов к каждому из них.Вы можете найти очень хорошее вступление к этой теме здесь .Для подходов машинного обучения наиболее важным элементом является разработка функций, и она не ограничивается суммой слов.Вы можете найти много других полезных функций в различных приложениях из учебника, на который я ссылаюсь.Какой язык вам нужно обработать, зависит от того, какие функции вы хотите использовать.Вам может понадобиться POS-тегирование, если информация POS необходима для ваших функций, например.

Для классификаторов вы можете использовать опорные векторные машины, максимальную энтропию и наивный байесовский анализ (вероятно, в качестве базового уровня), и они часто используютсяв литературе, о которой вы также можете найти довольно полный список в ссылке.Набор инструментов Mallet содержит ME и NB, и если вы используете SVMlight, вы можете легко преобразовать форматы объектов в формат Mallet с помощью функции.Конечно, существует много других реализаций этих классификаторов.

Для методов на основе правил часто используется точечная взаимная информация, а также некоторые виды методов на основе оценки и т. Д.

Надеюсь, это поможет.

1 голос
/ 14 февраля 2012

Для анализа текста не существует языка, более сильного, чем СНОБОЛ. Например, в СНОБОЛ-4 интерпретатор Фортрана занимает всего 60 строк.

0 голосов
/ 13 февраля 2012

NLTK предлагает действительно хороший алгоритм для анализа настроений.Это открытый исходный код, так что вы можете взглянуть на исходный код и проверить используемый алгоритм.Вы даже можете скачать книгу NLTK, которая является бесплатной и содержит хороший материал по анализу настроений.

Переходя ко второму пункту, я не думаю, что Java так медлительна.Я сам кодирую на c ++ в течение многих лет, но в последнее время также начал с java, как будто вы видите много очень популярных программ с открытым исходным кодом, таких как lucene, solr, hadoop, neo4j, написанных на java.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...