Я пытался применить unnest_tokens из tidytext в столбце данных для создания общих биграмм и триграмм.Это короткие тексты из> 200 статей.Они также являются подмножеством столбцов из большего CSV.
Я пробовал следующее, но безрезультатно:
1. установка stringsasfactors = FALSE
2. используется unnest_, unnest_tokens_.
Пример: bookparagraphs.csv
a<- data.frame("texts" = bookparagraphs$text[1:10], stringsAsFactors = FALSE)
str(a)
'data.frame': 10 obs. of 1 variable:
$ text: Factor w/ 6552 levels
Ошибка в check_input (x): ввод должен быть символьным вектором любой длины или списком символьных векторов, каждый из которых имеетдлина 1. ***
Однако, tm_map прекрасно работает, когда я конвертировал свои тексты> корпус> DTM и т. д.Я могу рассчитывать и анализировать совпадения слов просто отлично.
Я бы хотел лучше использовать tidytext, поэтому я стремлюсь выяснить, как это работает и где я ошибся.
Ценю любые предложения!Спасибо.