Question

Я применяю скрытое выделение Дирихле для 230 тыс. Текстов, чтобы упорядочить представленные данные. Я не уверен, что было бы лучше применить определение основы или лемматизации в функции токенизации предварительной обработки при использовании библиотеки text2vec в R.

Я рассмотрел оба результата, и они разные, даже если это одно и то же слово. Количество раз отличается в большинстве случаев и некоторые слова отсутствуют в других.

tok_fun <- function(x) {
  tokens <- word_tokenizer(x) 
  textstem::lemmatize_words(tokens)
}
vs
tok_fun <- function(x) {
  tokens <- word_tokenizer(x)
  lapply(tokens, SnowballC::wordStem, language="en")
}

Лучше ли проходить через лемматизацию при предварительной обработке текста для применения скрытого распределения Дирихле?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Лучше ли проходить через лемматизацию при предварительной обработке текста для применения скрытого распределения Дирихле?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы