Я работаю над анализом настроений, специфичным для предметной области, и хочу получить каждое независимое слово полярность в этом конкретном корпусе (а не общий балл, такой как "SentiWordNet" или другие лексиконы)
сначала яЯ подумал, что использование следующей формулы поможет:
positive_word_polarity = #word occurrence in positive reviews / # all words in pos and neg reviews
negative_word_polarity = #word occurrence in negative reviews / # all words in pos and neg reviews
, но затем я обнаружил некоторые проблемы, связанные с этим решением (1) у нас есть «хорошо» в положительном отзыве и отрицательном отзыве «отрицательный отзыв» 2)могут быть некоторые слова с множеством вхождений, но с меньшим эффектом или наоборот
)
, поэтому в основном мои входные данные представляют собой обзоры и их полярность, и мне нужен лексикон, содержащий слова и их полярности.
спасибо заранее за помощь