Извлечь данные из PDF в Excel или DataFrame Python - PullRequest
0 голосов
/ 18 июня 2020

Мне пришлось очистить таблицу с веб-сайта. Этот веб-сайт не позволил мне ничего с него очистить. Я пробовал селен и запрашивает модули. Затем я использовал селен, чтобы сделать снимок экрана всей веб-страницы, и обрезал его с помощью PIL I, а затем сохранил этот снимок экрана в формате PDF. Теперь я пытаюсь получить эти данные из PDF. Я много пробовал. Но это не работает. Есть ли какое-нибудь решение для извлечения этих данных из PDF? Вот что я пробовал

tabula.convert_into("table.pdf", "offense_testing.xls", output_format="xls")
...