Я не знаю, как глубоко вам нужно разбирать pdf, но здесь - это то, что я сделал совсем недавно, чтобы извлечь pdf-текст в строку json. он также извлечет изображения, но если они вам не нужны, вы все равно можете прокомментировать эти две строки в функции запуска в pdfreader / main.py
extract_images(pdf_file)
dict_book = get_images_update_dict(dict_book, image_folder)
Да, это в python, а не в php, но вы можете получить результат в json следующим образом:
exec("./parser.py pdfreader/book.pdf './images/' 2>&1", $output);
$data = json_decode($output)
var_dump($data);