Разбор PDF / DOC банковской выписки через PHP - PullRequest
0 голосов
/ 02 марта 2011

Я работаю над приложением учета. Пользователь загрузит в приложение желаемую выписку в формате PDF или doc. Мне нужно прочитать / разобрать документ и вставить сумму / номер чека и т. Д. (Согласно структуре моей базы данных) в базу данных.

Пожалуйста, помогите в достижении того же.

Ответы [ 2 ]

0 голосов
/ 12 июля 2011

Я работаю над этой же проблемой уже более 2 недель, и должен сказать, что это довольно сложная задача. У меня был некоторый успех в поиске класса php для извлечения текста, но проблема в том, что он не будет работать на всех версиях .pdf формата, в который он попал. А самому ударить по барабану потребуется время, чтобы разобраться с проблемами кодирования и сжатия. Сейчас я на самом деле смотрю на некоторые библиотеки Python. Мне просто слишком много времени, чтобы написать один из них с нуля.

0 голосов
/ 04 марта 2011

PDF создан для представления, а не для работы с данными внутри.

Возможно, вам повезет с pdftotext или catdoc.

...