Извлечь табличную страницу PDF в структурированный формат - PullRequest
0 голосов
/ 30 апреля 2019

У меня есть руководство по продукту в формате PDF: http://www8.hp.com/h20195/v2/GetDocument.aspx?docname=c05951186

Если вы откроете эту ссылку, вы увидите табличный формат на второй странице, и я хочу проанализировать его и заполнить свой собственныйтаблица python (датафрейм).Я пробовал tabula-py, camelot, ec.но они не распознают вторую страницу как таблицу и поэтому ничего не возвращают.

Какую библиотеку мне использовать для этого, так как я предпочел бы программный способ сделать это, поскольку я должен сделать это для нескольких файлов?Любые другие предложения по этому вопросу также приветствуются.

Спасибо.

...