Php - pdf parser - PullRequest
       19

Php - pdf parser

1 голос
/ 08 марта 2012

Я пытаюсь найти парсер PDF. Я ищу в stackoverflow, но нет удовлетворительных ответов. Некоторые говорят, что Zend хорош для этого, но я не хочу его использовать. Есть хороший класс, чтобы сделать это?

1 Ответ

0 голосов
/ 22 мая 2013

Я не знаю, как глубоко вам нужно разбирать pdf, но здесь - это то, что я сделал совсем недавно, чтобы извлечь pdf-текст в строку json. он также извлечет изображения, но если они вам не нужны, вы все равно можете прокомментировать эти две строки в функции запуска в pdfreader / main.py

extract_images(pdf_file)
dict_book = get_images_update_dict(dict_book, image_folder)

Да, это в python, а не в php, но вы можете получить результат в json следующим образом:

exec("./parser.py pdfreader/book.pdf './images/' 2>&1", $output);
$data = json_decode($output)
var_dump($data);
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...