pdf текстовый класс экстрактора в php - PullRequest
2 голосов
/ 29 июня 2011

Есть ли в php какой-либо класс, который извлекает весь текст из pdf-файла, чтобы я мог сохранить его в базе данных mysql. В моем PDF-файле много элементов, таких как изображения, таблицы, простой текст, элементы форм, диаграммы и т. Д.

До сих пор я видел много классов за последние два дня, которые извлекают тексты, но никто не способствует полному извлечению текста, Не извлекает полный текст из PDF.

Я хочу извлечь весь текст из данного файла PDF, даже если текст находится в таблице и т. Д.

Кто-нибудь знает об этом? :)

Большое спасибо. Хорошего дня:)

Ответы [ 3 ]

0 голосов
/ 29 июня 2011
0 голосов
/ 03 сентября 2013

Я тестировал много программ командной строки, но ни одна не дала 100% результата. Итак, я запустил свою собственную библиотеку на PHP:

https://github.com/smalot/pdfparser

В настоящее время он ориентирован на текст, но планируется поддержка изображений.

Если у вас возникли проблемы, спасибо, что прислали мне свой PDF и, если возможно, способ, которым вы его сделали.

0 голосов
/ 29 июня 2011

Если вы работаете с этим на сервере Linux, вы можете попробовать apdf2text вызвать его через exec , а затем получить содержимое выходного файла.

Примечаниечто есть несколько сценариев в формате pdf to text, и вы получите различный пробег от всех.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...