Как я могу извлечь все различные текстовые записи с их размером шрифта из PDF, используя Python и Selenium - PullRequest
0 голосов
/ 28 октября 2019

Я пытаюсь вывести все текстовые записи с соответствующими размерами шрифта из онлайн PDF. Я использую python и selenium.

Кажется, что я могу определить какой-то текст и размеры, используя 'textLayer', но вывод не соответствует тому, что я вижу, когда проверяю PDF ..

link = 'http://www.pdf995.com/samples/pdf.pdf'
driver.get(link)
sleep(5)
html = driver.find_elements_by_class_name("textLayer")
for each in html:
    print(each.value_of_css_property("font-size"))
    print(each.value_of_css_property("font-family"))

но это возвращает:

12px
Segoe UI
12px
Segoe UI

Если вы проверите сам PDF, там будет намного больше текстовых записей, а также с большими шрифтами:

<span style="left: 60px; top: 235.705px; font-size: 15px; font-family:      sans-serif; transform: scaleX(1.03161);">The pdf995 suite of products - Pdf995, PdfEdit995, and Signature995 - is a complete solution for your document publishing needs. It </span>

и т. Д.

Я не понимаю, почему этот не подняли ... Если бы кто-то мог помочь, это было бы очень признательно. Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...