Майнинг финансовых артефактов с использованием R и tm.plugin.webmining / Reuters - PullRequest
0 голосов
/ 08 марта 2019

Сейчас я работаю с книгой https://www.tidytextmining.com/ и хочу заняться майнингом на основе финансовых статей с R. Поскольку Google и Yahoo не работают, я пытаюсь импортировать данные из Reuters "BusinessNews".

Я начал с:

reutersNews<-WebCorpus(ReutersNewsSource("businessnews"))
Article<-reutersNews[[1]]$content

При этом я вижу фактическое содержание данной статьи в виде символов. У меня вопрос, есть ли возможность сгруппировать все 20 статей в одном корпусе, чтобы я мог продолжать работать с ним, как это возможно с помощью «acq», предоставляемого пакетом «tm».

Я подумал сделать следующее:

AllArticles<-reutersNews[[1:20]]$content

Но, похоже, не очень хорошо работает:

Error in x$content[[i]] : recursive indexing failed at level 4

Также я подумал об использовании группы:

group_by(reutersNews)
Error in UseMethod("group_by_") : 
  no applicable method for 'group_by_' applied to an object of class "c('WebCorpus', 'VCorpus', 'Corpus')"

Моя проблема происхождения также заключается в том, что я не уверен, как продолжить процесс очистки с заданным содержанием только одной статьи. Я попытался продолжить, как в главе 5.3 книги, но, похоже, не очень хорошо работает.

Единственное, что мне удалось сделать, это:

Test12<-tibble(Article1)
# A tibble: 1 x 1
#Article1                                                                                                 
#<chr>                                                                                                  
#  1 "March 7, 2019 /  1:54 AM / Updated an hour ago\nHuawei fights back against U.S. blackout with Texas l~

Поскольку я начинающий в этой теме, прошу прощения за то, что я подошел к проблеме. Кроме того, я очень благодарен за любую помощь.

...