Словарь в квантовой системе с логическими / контекстными правилами (см. «Правила близости» Wordstat) - PullRequest
1 голос
/ 12 июня 2019

До использования quanteda для анализа текста я использовал Provalis Wordstat.При использовании методов словаря Wordstat позволяет пользователю включать в словарь как обычные термины, так и правила близости (например: «Судан» НЕ РЯДОМ «Юг_»; «Конго» НЕ ПОСЛЕ «Democratic_Republic_of_the_»).Можно ли применить подобную функцию в Quanteda?Друзья предположили, что какое-то правило исключения с помощью регулярных выражений может работать, но я не знаю, как его реализовать.

Хотя я не очень хорошо знаком с написанием регулярных выражений (или какой бы вариант не сделал это возможным), мои мысли могли быбыть чем-то вроде:

# example for dictionary with names of 2 african countries
africa_dict <- dictionary(list(algeria="algeria",
                             republic_of_the_congo=c("republic_of_the_congo", "congo_(NOT AFTER democratic_republic_of_the_)")))

...