Rcrawler не собирает все страницы - PullRequest
0 голосов
/ 10 октября 2019

Я хочу сканировать сайты. Для сбора информации о различных подкастах. Я заинтересован в названии, дате и аннотации шоу. Мои результаты неуместны и с большим количеством пробелов.

Я пробовал несколько сайтов. Некоторые работают, но большинство нет. Я также переключился между аргументом ExtractCSSPath и ExtractXPath.

Rcrawler(Website = "https://www.futuretechpodcast.com/all-podcasts/", no_cores = 4, no_conn = 4, ExtractCSSPat = c(".podcast-hero-title", ".podcast-hero-date",".content_text" ), 
PatternsNames = c("Title","Date", "Content"), MaxDepth = 1)

Полученный лист Excel содержит некоторую информацию, которую я хочу, но большинство строк пустые. Также появляется информация только о первой странице. На других сайтах этот код был успешным.

Является ли Rcrawler правильным пакетом?

Я хотел бы получить полный файл Excel, включая все даты, заголовок и тезисы.

...