Копирование данных из PDF в CSV? Python против PHP? - PullRequest
5 голосов
/ 09 сентября 2011

У меня есть куча отчетов, которые я собираю вручную каждый день, и они берутся навсегда, поэтому я думал об автоматизации всего процесса.Я буду собирать данные из: (1) HTML, (2) CSV / XLS, (3) PDF.Я в основном собирал только данные из CSV / HTML с помощью PHP, и мне было интересно, есть ли надежные библиотеки или способы получения табличных данных из PDF в PHP?

Я только начал изучать Python и вижу, чтоможет быть хорошей идеей попробовать сделать это с PDFMiner в сочетании с Scrapy.Будет ли это лучше?Или есть другие варианты?

Пожалуйста, дайте мне знать.Спасибо!

Ответы [ 2 ]

3 голосов
/ 09 сентября 2011

Beautiful Soup - еще одна хорошая альтернатива для очистки, а PDFminer - лучший анализатор PDF для Python, который я нашел. Я в основном использую pdf2txt.py, а затем переформатирую оттуда, если это необходимо.

2 голосов
/ 09 сентября 2011

Если у вас есть доступ из командной строки к серверу Linux, попробуйте команду pdftotext

$ pdftotext file.pdf

Если вам повезет, вы получите что-то, с чем вы можете работать.В зависимости от PDF текст может показаться странным из-за того, как таблицы были изначально отформатированы, по моему опыту.Удачи.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...