Я пытаюсь выучить тидитекст.Я могу следовать примерам на веб-сайте tidytext, если использую пакеты (например, janeaustenr).Тем не менее, большинство моих данных представляют собой текстовые файлы в корпусе.Я могу воспроизвести пример преобразования tm в tidytext для анализа настроений (ap_sentiments) на веб-сайте tidytext.Однако у меня возникли проблемы с пониманием того, как структурированы данные тидитекста.Например, романы Остина хранятся в «книге» в пакете аустрена.Для моих данных ТМ, однако, каков эквивалент для вызова вектора для книги?Вот конкретный пример для моих данных:
'cname <- file.path(".", "greencomments" , "all")
Затем я могу успешно использовать tidytext после выполнения предварительной обработки tm:
practice <- tidy(tdm)
practice
partysentiments <- practice %>%
inner_join(get_sentiments("bing"), by = c(term = "word"))
partysentiments
# A tibble: 170 x 4
term document count sentiment
<chr> <chr> <dbl> <chr>
1 benefit 1 1.00 positive
2 best 1 2.00 positive
3 better 1 7.00 positive
4 cheaper 1 1.00 positive
5 clean 1 24.0 positive
7 clear 1 1.00 positive
8 concern 1 2.00 negative
9 cure 1 1.00 positive
10 destroy 1 3.00 negative
Но я не могу воспроизвести простые ggplots ofЧастоты слова в тидитексте.Поскольку мои данные / корпус не имеют столбца для «книги» в кадре данных, код (и, следовательно, большая часть функциональности тидитекста) не будет работать.
Вот пример проблемы.Это прекрасно работает:
practice %>%
count(term, sort = TRUE)
# A tibble: 989 x 2
term n
<chr> <int>
1 activ 3
2 air 3
3 altern 3
но что, как я могу организовать tm corpus в соответствии со структурой книг в пакете austenr?Является ли «документ» эквивалентом «книги»?У меня есть текстовые файлы в папках для корпуса.Я попытался заменить это в коде, и это не работает.Может мне переименовать это?Заранее извиняюсь - я не программист.