получение слова полярности в каждом обзоре - PullRequest
0 голосов
/ 24 марта 2019

Я работаю над анализом настроений, специфичным для предметной области, и хочу получить каждое независимое слово полярность в этом конкретном корпусе (а не общий балл, такой как "SentiWordNet" или другие лексиконы)

сначала яЯ подумал, что использование следующей формулы поможет:

positive_word_polarity = #word occurrence in positive reviews / # all words in pos and neg reviews    
negative_word_polarity = #word occurrence in negative reviews / # all words in pos and neg reviews    

, но затем я обнаружил некоторые проблемы, связанные с этим решением (1) у нас есть «хорошо» в положительном отзыве и отрицательном отзыве «отрицательный отзыв» 2)могут быть некоторые слова с множеством вхождений, но с меньшим эффектом или наоборот

)

, поэтому в основном мои входные данные представляют собой обзоры и их полярность, и мне нужен лексикон, содержащий слова и их полярности.

спасибо заранее за помощь

1 Ответ

0 голосов
/ 24 марта 2019

Для решения проблемы 2) вы можете умножить формулы полярности с помощью tfidf

enter image description here

Частота обратных документов - это мера того, сколько информации слово обеспечивает, то есть, является ли оно общим или редким во всех документах.

https://en.wikipedia.org/wiki/Tf%E2%80%93idf

...