Question

У меня есть куча отчетов, которые я собираю вручную каждый день, и они берутся навсегда, поэтому я думал об автоматизации всего процесса.Я буду собирать данные из: (1) HTML, (2) CSV / XLS, (3) PDF.Я в основном собирал только данные из CSV / HTML с помощью PHP, и мне было интересно, есть ли надежные библиотеки или способы получения табличных данных из PDF в PHP?

Я только начал изучать Python и вижу, чтоможет быть хорошей идеей попробовать сделать это с PDFMiner в сочетании с Scrapy.Будет ли это лучше?Или есть другие варианты?

Пожалуйста, дайте мне знать.Спасибо!

Stedy · Answer 1 · 09 сентября 2011

Beautiful Soup - еще одна хорошая альтернатива для очистки, а PDFminer - лучший анализатор PDF для Python, который я нашел. Я в основном использую pdf2txt.py, а затем переформатирую оттуда, если это необходимо.

Adam · Answer 2 · 09 сентября 2011

Если у вас есть доступ из командной строки к серверу Linux, попробуйте команду pdftotext

$ pdftotext file.pdf

Если вам повезет, вы получите что-то, с чем вы можете работать.В зависимости от PDF текст может показаться странным из-за того, как таблицы были изначально отформатированы, по моему опыту.Удачи.

Копирование данных из PDF в CSV? Python против PHP?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Копирование данных из PDF в CSV? Python против PHP?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы