Почему это важно для сентиментального анализа - PullRequest
0 голосов
/ 05 ноября 2018

Я использую семь лексиконов для вычисления сентиментальных оценок в наборе данных, содержащем сообщения на форуме. Помимо удаления всех шумов, таких как пробелы, специальные символы, цифры и стоп-слова, почему также важно останавливать слова?

Я использую Harvard.IV, Qdap, Финансовый словарь Генри и Финансовый словарь Лафрана-Макдональда из пакета SentimentAnalysis, а также словари AFINN, NRC и BING.

Ответы [ 2 ]

0 голосов
/ 05 ноября 2018

Это спорно утверждение, что вытекающий важно для анализа настроений.

Прежде всего, разные термины с разными значениями или значениями чувств образуются в одном и том же стебле. Вы можете проверить Портер Стеммер в Гарвардском Генеральном Инквизире . Пример со страницы: близость и close связан с одним и тем же термином, где один термин имеет положительный смысл на первом месте а другой имеет отрицательный.

Еще один момент, по которому можно спорить о стемминге, важен для анализа настроений - это то, что синтаксическая и семантическая обработка практически невозможна после стемминга. Например, если вы хотите пометить термины pos, создайте деревья разбора для предложений или найдите триггеры и области отрицания; stemming - это не тот процесс, который нужно рассматривать как применение.

Например, если в нашем предложении есть термин довольно , и мы хотим определить, является ли термин прилагательным или наречием, где симпатичная женщина положительна, а довольно ужасна отрицательна, применяя пост-теги для разрыва стеблей.

Приветствия

0 голосов
/ 05 ноября 2018

Потому что это позволяет снизить уровень шума в ваших данных. Процесс обрезания сводит инфлективные формы и связанные формы к общей основе слова. Пожалуйста, ознакомьтесь с этим очень информативным учебником от Стэнфордской группы обработки естественного языка

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...