Извлечение данных из встроенных файлов PDF с веб-страниц с использованием python - PullRequest
0 голосов
/ 13 февраля 2020

Я использую Selenium для автоматизации браузера Firefox для перехода на определенную веб-страницу. На этой веб-странице вы получите встроенный файл PDF. Мне было интересно, есть ли способ извлечь данные из PDF на этой странице. Вот код, который я запускаю:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

driver = webdriver.Firefox()
driver.get(
    'http://www.kseb.in/index.php?option=com_wrapper&view=wrapper&Itemid=813&lang=en')
iframe = driver.find_element_by_id("blockrandom")
driver.switch_to.frame(iframe)
s = Select(driver.find_element_by_id('office'))
s.select_by_value('5617')
driver.find_element_by_id('t_consumer-no_5').send_keys('11230')
driver.find_element_by_xpath(
    '/html/body/form/table/tbody/tr[4]/td[3]/input').click()
driver.switch_to.default_content()
iframe = driver.find_element_by_id("blockrandom")
driver.switch_to.frame(iframe)
WebDriverWait(driver, 10).until(EC.element_to_be_clickable(
    (By.ID, "download"))).click()



В идеале я хотел бы получить значение конкретной строки в таблице, показанной на странице. Вы сможете просматривать страницу после запуска кода. Я использую машину Linux (элементарная ОС Juno)

Или, как бы я go автоматизировал загрузку (автоматически нажимая кнопку ОК, когда отображается всплывающее окно загрузки), а затем извлекал данные из загруженного PDF?

Спасибо

NP

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...