NLTK мешки слов, показывающих эмоции - PullRequest
0 голосов
/ 08 ноября 2018

Я работаю над NLP, используя python и nltk.

Мне было интересно, есть ли какой-нибудь набор данных, в котором есть пакеты с словами, в которых указаны ключевые слова, относящиеся к таким эмоциям, как счастье, радость, гнев, грусть и т. Д.

Из того, что я выкопал в корпусе nltk, я вижу, что есть некоторый корпус анализа настроений, который содержит положительные и отрицательные отзывы, которые не совсем связаны с ключевыми словами, показывающими эмоции.

Есть ли какой-нибудь способ, которым я мог бы создать свой собственный словарь, содержащий слова, которые показывают эмоции для этой цели? так, как мне это сделать и есть ли коллекция таких слов?

Любая помощь будет принята с благодарностью

1 Ответ

0 голосов
/ 08 ноября 2018

Мне не известен ни один набор данных, который связывает настроения с ключевыми словами, но вы легко можете создать его, исходя из общего набора данных анализа настроений.

1) Очистите наборы данных от стоп-слов и всех терминов, которые вы не хотите связывать с настроением.

2) Рассчитать количество каждого слова в двух классах чувств и нормализовать его. Таким образом, вы будете связывать вероятность того, что каждое слово будет принадлежать классу. Предположим, у вас есть 300 раз, когда слово «любовь» появляется в положительных предложениях, и то же самое слово встречается 150 раз в отрицательных предложениях. Если у вас есть норма, слово «любовь» относится с вероятностью 66% (300 / (150 + 300)) к положительному классу и 33% к отрицательному.

3) Чтобы сделать словарь более устойчивым к пограничным терминам, вы можете установить порог, чтобы считать нейтральным все слова с максимальной вероятностью ниже порога.

Это простой подход к созданию словаря, который вы ищете. Вы можете использовать более сложный подход, как термин «частота-обратная частота документа».

...