Сейчас я работаю с книгой https://www.tidytextmining.com/ и хочу заняться майнингом на основе финансовых статей с R. Поскольку Google и Yahoo не работают, я пытаюсь импортировать данные из Reuters "BusinessNews".
Я начал с:
reutersNews<-WebCorpus(ReutersNewsSource("businessnews"))
Article<-reutersNews[[1]]$content
При этом я вижу фактическое содержание данной статьи в виде символов.
У меня вопрос, есть ли возможность сгруппировать все 20 статей в одном корпусе, чтобы я мог продолжать работать с ним, как это возможно с помощью «acq», предоставляемого пакетом «tm».
Я подумал сделать следующее:
AllArticles<-reutersNews[[1:20]]$content
Но, похоже, не очень хорошо работает:
Error in x$content[[i]] : recursive indexing failed at level 4
Также я подумал об использовании группы:
group_by(reutersNews)
Error in UseMethod("group_by_") :
no applicable method for 'group_by_' applied to an object of class "c('WebCorpus', 'VCorpus', 'Corpus')"
Моя проблема происхождения также заключается в том, что я не уверен, как продолжить процесс очистки с заданным содержанием только одной статьи. Я попытался продолжить, как в главе 5.3 книги, но, похоже, не очень хорошо работает.
Единственное, что мне удалось сделать, это:
Test12<-tibble(Article1)
# A tibble: 1 x 1
#Article1
#<chr>
# 1 "March 7, 2019 / 1:54 AM / Updated an hour ago\nHuawei fights back against U.S. blackout with Texas l~
Поскольку я начинающий в этой теме, прошу прощения за то, что я подошел к проблеме. Кроме того, я очень благодарен за любую помощь.