Получить конкретное содержание PDF в PHP и Codeigniter - PullRequest
0 голосов
/ 27 декабря 2018

Я пытаюсь извлечь текст из PDF-файла и получить некоторые конкретные данные внутри PDF-содержимого.

То, что я хотел получить, это имя, адрес, адрес электронной почты, контактный номер и т. Д. Я уже извлек текст в PDF-файл, но собираю данные, содержащие только имя, адрес и т. Д.

Вот пример извлеченной строки из PDF-файла.

enter image description here

То, что я хочу, это получить значение имени,адрес и контакт только.Например:

ИМЯ: Cabatay John АДРЕС: # 208

Есть ли какое-нибудь возможное решение для извлечения этой строки?Спасибо!

Вот мой код для анализа файла PDF.

        $parser = new \Smalot\PdfParser\Parser();
        $pdf    = $parser->parseFile(base_url('public/uploads/'.$upload['file_name']));

        $text = $pdf->getText();

        echo $text;

используемая библиотека: http://www.pdfparser.org/

1 Ответ

0 голосов
/ 28 декабря 2018

Вы сказали, что вы уже извлекли текст pdf в виде строки, затем вы можете обработать его и извлечь все, что вам нужно, с помощью функций php .. примерно так:

$name_and_address = strstr($pdf_string, 'CONTACT', true);

Это вернет все допервое вхождение слова "contact" и это то, что вам нужно в этом случае, предположим, что это всегда будет один и тот же шаблон.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...