Лучше ли проходить через лемматизацию при предварительной обработке текста для применения скрытого распределения Дирихле? - PullRequest
0 голосов
/ 15 октября 2019

Я применяю скрытое выделение Дирихле для 230 тыс. Текстов, чтобы упорядочить представленные данные. Я не уверен, что было бы лучше применить определение основы или лемматизации в функции токенизации предварительной обработки при использовании библиотеки text2vec в R.

Я рассмотрел оба результата, и они разные, даже если это одно и то же слово. Количество раз отличается в большинстве случаев и некоторые слова отсутствуют в других.

tok_fun <- function(x) {
  tokens <- word_tokenizer(x) 
  textstem::lemmatize_words(tokens)
}
vs
tok_fun <- function(x) {
  tokens <- word_tokenizer(x)
  lapply(tokens, SnowballC::wordStem, language="en")
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...