Подсчет частоты слов из предопределенного словаря - PullRequest
0 голосов
/ 03 декабря 2018

Я выполняю анализ текста для документа, используя в основном Pandas, NLTK и TextBlob.Я хочу получить частоты только предопределенных терминов.Строки в документе являются рецензиями, и существует заранее определенный список ассоциаций между словами, которые представляют собой хороший или плохой обзор.Хорошие отзывы, скорее всего, будут иметь (легко -> использовать), (сервис -> хорошо), в то время как плохие отзывы, скорее всего, будут иметь (плата -> ниже), (проще -> заработать).

То, что я хотел бы сделать, это использовать эти ассоциации, чтобы классифицировать обзоры как хорошие или плохие, основываясь на том, например, что текст в определенной строке имеет «легкий» и «использовать» тесно связанный, или «сервис»и хорошо".На чем я застрял, так это на структуре - как мне составить «хороший» и «плохой» словарь кортежей и использовать его с, возможно, n-граммами или чем-то другим для получения ассоциации?

...