Я хочу сканировать сайты. Для сбора информации о различных подкастах. Я заинтересован в названии, дате и аннотации шоу. Мои результаты неуместны и с большим количеством пробелов.
Я пробовал несколько сайтов. Некоторые работают, но большинство нет. Я также переключился между аргументом ExtractCSSPath и ExtractXPath.
Rcrawler(Website = "https://www.futuretechpodcast.com/all-podcasts/", no_cores = 4, no_conn = 4, ExtractCSSPat = c(".podcast-hero-title", ".podcast-hero-date",".content_text" ),
PatternsNames = c("Title","Date", "Content"), MaxDepth = 1)
Полученный лист Excel содержит некоторую информацию, которую я хочу, но большинство строк пустые. Также появляется информация только о первой странице. На других сайтах этот код был успешным.
Является ли Rcrawler правильным пакетом?
Я хотел бы получить полный файл Excel, включая все даты, заголовок и тезисы.