Я пытался следовать Text Mining с помощью R от Джулии Силге, однако я не могу токенизировать свой набор данных с помощью функции unnest_tokens. 1005 * Вот набор данных, который я пытался использовать, который находится в сети, поэтому результаты должны быть воспроизводимыми:
bible <- readLines('http://bereanbible.com/bsb.txt')
И здесь все разваливается.
Входные данные:
bible <- bible %>%
unnest_tokens(word, text)
Вывод:
Error in tbl[[input]] : subscript out of bounds
Из того, что я читал об этой ошибке, в Rstudio проблема в том, что набор данных должен быть матрицей, поэтому я попытался преобразовать набор данных в матричную таблицу, и я получил то же сообщение об ошибке.
Ввод:
bible <- readLines('http://bereanbible.com/bsb.txt')
bible <- as.matrix(bible, nrow = 31105, ncol = 2 )
bible <- bible %>%
unnest_tokens(word, text)
Выход:
Error in tbl[[input]] : subscript out of bounds
Любые рекомендации по дальнейшим шагам возьмите или, может быть, некоторые хорошие источники для интеллектуального анализа текста, которые я мог бы использовать, продолжая погружаться в это, были бы очень признательны.