Конвертировать определенный файл PDF в HTML в PHP - PullRequest
0 голосов
/ 07 декабря 2011

есть ли способ как конвертировать PDF в HTML?Мне нужен текст из файла, и когда я попробовал библиотеку PDFtoText, я получил текст, но не отсортированный и без каких-либо правил для синтаксического анализа.Я заметил, что некоторые PDFtoHTML онлайн-сервисы прекрасно работают с файлом.Итак, какие-либо советы, пожалуйста? Вот файл PDF , и мне нужна только одна конкретная строка в правом столбце.

Ответы [ 2 ]

0 голосов
/ 07 декабря 2011

pdftohtml работает отлично: быстро, стабильно, но результат html в лучшем случае безобразен. Я довольно долго использовал его для веб-сайта, на котором много резюме.

Однако это хорошее решение для извлечения текстового контента.

Я бы попробовал scribd API

http://www.scribd.com/developers/api

или API документа приложений Google. GOogle отлично справляется с отображением и преобразованием PDF-файлов

0 голосов
/ 07 декабря 2011

Попробуйте интегрировать PDFtoHTML из проекта poppler;это должно поддерживать распознавание таблиц.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...