Извлечение финансовых таблиц, встроенных в PDF-документ - PullRequest
0 голосов
/ 05 июня 2018

Я пытаюсь проанализировать годовые отчеты компаний в формате pdf (из Annualreports.com).Я скачал около 5000 документов в формате PDF, каждый из которых содержит текстовые данные и данные таблиц.Я хочу извлечь таблицы финансовых данных , найденные в этих PDF-документах, и сохранить их в файл Excel .

Я пробовал решения, основанные на Tabula, PyPDF2, Regexp и NLTK. Тем не менее, каждый раз я получаю ложные срабатывания (символы не обнаружены, правильная страница в pdf не извлечена и т. Д.) В моих решениях.Существуют ли какие-либо решения Python для этой проблемы?Также готовы изучить решения на других языках (например, VBA может быть?)

Вот несколько примеров документов, с которыми я имею дело

http://annualreports.com/HostedData/AnnualReportArchive/a/NYSE_ATEN_2015.pdf
http://annualreports.com/HostedData/AnnualReportArchive/a/NASDAQ_AEIS_2016.pdfhttp://annualreports.com/HostedData/AnnualReportArchive/A/LSE_ALM_2016.pdf

Спасибо за потраченное время!

...