Я использую пакет RSelenium для загрузки нескольких данных с веб-сайта, как показано ниже:
library(RSelenium)
rD = rsDriver()$client
rD$navigate('https://www.bseindia.com/corporates/ann.aspx?expandable=3')
rD$executeScript(paste("document.getElementById('ctl00_ContentPlaceHolder1_txtDate').value = '04/09/2018';"), list('Dummy'))
rD$executeScript("document.getElementById('ctl00_ContentPlaceHolder1_imgSubmit').click();", args = list('Dummy'))
Data = strsplit(rD$findElement(using = 'id', "ctl00_ContentPlaceHolder1_lblann")$getElementText()[[1]], "\n")[[1]]
Однако, к сожалению, мой код не смог извлечь ссылку из различных файлов PDF, доступных на этом веб-сайте.Например, я не смог получить ссылку, как показано ниже, при просмотре исходного HTML-кода:
<span id="ctl00_ContentPlaceHolder1_lblann"><table cellpadding='4' cellspacing='1' width='100%' border='0'><tr><td class='announceheader' style='font-weight:bold; color:#ffffff' align='left' colspan='4'>04 Sep 2018</td></tr><tr><td class='TTHeadergrey' style='font-weight:bold;' valign='middle'>Infibeam Avenues Ltd - 539807 - Announcement under Regulation 30 (LODR)-Appointment of Statutory Auditor/s</td><td class='TTHeadergrey'> </td><td class = 'TTHeadergrey' valign='middle'><a class='tablebluelink' href = 'https://www.bseindia.com/xml-data/corpfiling/AttachHis/b64b5834-093e-4147-a45d-b14ca89fa330.pdf' target = '_blank'>
Любая помощь, которую мне нужно сделать, чтобы извлечь информацию из файла PDF в Data
, будет очень полезна.