Я применяю скрытое выделение Дирихле для 230 тыс. Текстов, чтобы упорядочить представленные данные. Я не уверен, что было бы лучше применить определение основы или лемматизации в функции токенизации предварительной обработки при использовании библиотеки text2vec в R.
Я рассмотрел оба результата, и они разные, даже если это одно и то же слово. Количество раз отличается в большинстве случаев и некоторые слова отсутствуют в других.
tok_fun <- function(x) {
tokens <- word_tokenizer(x)
textstem::lemmatize_words(tokens)
}
vs
tok_fun <- function(x) {
tokens <- word_tokenizer(x)
lapply(tokens, SnowballC::wordStem, language="en")
}