Как правильно кодировать текст при импорте текстовых документов в R? - PullRequest
0 голосов
/ 23 февраля 2019

Я пытаюсь импортировать содержимое документов из нескольких слов в один и тот же объект в R. Я следую руководству Джулии Силдж и Дэвида Робинсона (см. Здесь: https://www.tidytextmining.com/usenet.html).

Я не могу понятьо том, как правильно кодировать текстовый столбец при импорте.

Вот код, который я использую:

# Define a function to read all files from a folder into a data frame

  read_folder <- function(infolder) {
  tibble(file = dir(infolder, full.names = TRUE)) %>%
  mutate(text = map(file, read_lines)) %>%
  transmute(id = basename(file), text) %>%
  unnest(text)
  }

# Use unnest() and map() to apply read_folder to each subfolder

  raw_text <- tibble(folder = dir(training_folder, full.names = TRUE)) %>%
  unnest(map(folder, read_folder)) %>%
  transmute(newsgroup = basename(folder), id, text)

Вот пример результирующего текстового столбца:

 <f7><e5><95><e3><a9>O<af><a5><fa> PK

Придется ли менять кодировку после импорта данных?

...