Почему в НЛТК "не" считается останавливающим словом на английском sh? - PullRequest
0 голосов
/ 27 мая 2020

В настоящее время я изучаю nltk в Python, где я пишу программу для анализа настроений. Работая над этим, я обнаружил, что «не, ни, никогда» считаются останавливающими словами. Итак, мой вопрос: почему это происходит потому, что такие слова могут полностью изменить смысл предложений и могут привести к неудачам в анализе настроений.

Ответы [ 2 ]

0 голосов
/ 29 мая 2020

Стоп-слова обычно создаются на основе анализа наиболее распространенных слов в языке (это основная причина, по которой там присутствует «не»). Идея, стоящая за ними, состоит в том, чтобы позволить анализу (обычно подход с использованием набора слов) сосредоточиться на наиболее интересных словах документа.

Они используются для нескольких целей: они не были разработаны специально для анализа тональности. Это еще одна причина, по которой здесь присутствует «не».

Пакет слов к анализу настроений всегда будет немного грубым, со стоп-словами или без них. Например, нетрудно создать реалистичные c -звучные положительные mov ie обзоры, используя отрицательные слова:

«Этот mov ie был совсем не тем, что я ожидал: я обычно ненавижу Тома Круза, но он заставил этот mov ie работать. "

" Я никогда не смотрю цыплят, но, как говорится, никогда не говори никогда. "

В любом случае попробуйте настроить список стоп-слов, удалив" не " и «никогда», чтобы увидеть, улучшит ли это результаты. Затем попробуйте еще раз, не используя игнорируемые слова.

0 голосов
/ 27 мая 2020

Это зависит от типа анализа, который вы проводите, и размера набора данных.

  1. Если ваш анализ предназначен для поиска c topi (например, при поиске документа), может иметь смысл рассматривать их как стоп-слова, поскольку если что-то «никогда не X», это, вероятно, имеет отношение к topi c «X». Таким образом, «не Х» не является полной противоположностью «Х» в этом параметре. Вероятно, это не должно быть стоп-словом.

NLTK высказал суждение, вероятно, исходя из внимания того, кто написал соответствующие модули.

Подробнее об этом можно прочитать в Относитесь к отрицательным стоп-словам по-разному в зависимости от вашей задачи НЛП .

...