преобразование тм в тидитекст - PullRequest
0 голосов
/ 16 ноября 2018

Я пытаюсь выучить тидитекст.Я могу следовать примерам на веб-сайте tidytext, если использую пакеты (например, janeaustenr).Тем не менее, большинство моих данных представляют собой текстовые файлы в корпусе.Я могу воспроизвести пример преобразования tm в tidytext для анализа настроений (ap_sentiments) на веб-сайте tidytext.Однако у меня возникли проблемы с пониманием того, как структурированы данные тидитекста.Например, романы Остина хранятся в «книге» в пакете аустрена.Для моих данных ТМ, однако, каков эквивалент для вызова вектора для книги?Вот конкретный пример для моих данных:

'cname <- file.path(".", "greencomments" , "all")

Затем я могу успешно использовать tidytext после выполнения предварительной обработки tm:

practice <- tidy(tdm)
practice
partysentiments <- practice %>%
inner_join(get_sentiments("bing"), by = c(term = "word"))
partysentiments

# A tibble: 170 x 4
term    document count sentiment
<chr>   <chr>    <dbl> <chr>    
1 benefit 1         1.00 positive 
2 best    1         2.00 positive 
3 better  1         7.00 positive 
4 cheaper 1         1.00 positive 
5 clean   1        24.0  positive 
7 clear   1         1.00 positive 
8 concern 1         2.00 negative 
9 cure    1         1.00 positive 
10 destroy 1         3.00 negative 

Но я не могу воспроизвести простые ggplots ofЧастоты слова в тидитексте.Поскольку мои данные / корпус не имеют столбца для «книги» в кадре данных, код (и, следовательно, большая часть функциональности тидитекста) не будет работать.

Вот пример проблемы.Это прекрасно работает:

practice %>%
count(term, sort = TRUE)

# A tibble: 989 x 2
term        n
<chr>   <int>
1 activ       3
2 air         3
3 altern      3

но что, как я могу организовать tm corpus в соответствии со структурой книг в пакете austenr?Является ли «документ» эквивалентом «книги»?У меня есть текстовые файлы в папках для корпуса.Я попытался заменить это в коде, и это не работает.Может мне переименовать это?Заранее извиняюсь - я не программист.

...