Использование Tabula для извлечения и консолидации данных из нескольких таблиц с одной и той же схемой из нескольких PDF-файлов с использованием Python - PullRequest
0 голосов
/ 06 ноября 2019

У меня есть большое количество PDF-файлов, в каждом из которых есть много таблиц и параграфов. Я заинтересован в том, чтобы перебирать pdf и таблицы в pdf и импортировать содержимое всех таблиц в соответствии с определенной схемой (включая определенные имена столбцов) в фрейм данных. Мои документы изначально являются документами Word, но мне сказали, что легче конвертировать в pdf и работать с pdf в python. В качестве альтернативы, если есть решение для Word Docs, это даже лучше для меня.

...