Я пытаюсь вывести все текстовые записи с соответствующими размерами шрифта из онлайн PDF. Я использую python и selenium.
Кажется, что я могу определить какой-то текст и размеры, используя 'textLayer', но вывод не соответствует тому, что я вижу, когда проверяю PDF ..
link = 'http://www.pdf995.com/samples/pdf.pdf'
driver.get(link)
sleep(5)
html = driver.find_elements_by_class_name("textLayer")
for each in html:
print(each.value_of_css_property("font-size"))
print(each.value_of_css_property("font-family"))
но это возвращает:
12px
Segoe UI
12px
Segoe UI
Если вы проверите сам PDF, там будет намного больше текстовых записей, а также с большими шрифтами:
<span style="left: 60px; top: 235.705px; font-size: 15px; font-family: sans-serif; transform: scaleX(1.03161);">The pdf995 suite of products - Pdf995, PdfEdit995, and Signature995 - is a complete solution for your document publishing needs. It </span>
и т. Д.
Я не понимаю, почему этот не подняли ... Если бы кто-то мог помочь, это было бы очень признательно. Спасибо