Как создать источник данных в R? Невозможно создать корпус, который соответствует моим потребностям - PullRequest
0 голосов
/ 14 февраля 2020

новичок здесь. У меня есть набор данных из 4 столбцов, в основном новостные статьи, содержащие столбцы с именами: дата, автор, заголовок и текст (который содержит текст). Я хочу создать корпус , но я не понимаю, как создать DataframeSource, в основном аргументы, которые я передаю. Я понимаю VectorSource. После этого моя цель - провести базовый анализ текста. Спасибо!

1 Ответ

0 голосов
/ 14 февраля 2020

Справка ?DataframeSource указывает, что вам нужно 2 столбца с именами «doc_id» и «text». В противном случае это не удастся.

Таким образом, перед тем, как продолжить, вам нужно создать точно такой же фрейм данных. Если в вашем случае данные выглядят так:

my_data <- data.frame(date = c(Sys.Date() - 1, Sys.Date()) , 
                      author = c("author1", "author2"),
                      title = c("title_1", "title_2"),
                   body = c("This is text1.", "This is text2."),
                   stringsAsFactors = FALSE)

Теперь вы должны получить сообщение об ошибке, как показано ниже, при использовании DataframeSource(mydata):

Ошибка в DataframeSource (my_data): all ( ! is.na (match (c ("doc_id", "text"), names (x)))) не TRUE

Чтобы решить эту проблему, необходимо переименовать заголовок столбца и тело. Например, как это:

index <- match(c("title", "body"), colnames(my_data))
colnames(my_data)[index] <- c("doc_id", "text")

# DataframeSource now works  
ds <- DataframeSource(my_data)
...