Альтернативы pdftohtml - PullRequest
       18

Альтернативы pdftohtml

2 голосов
/ 01 апреля 2011

Я экспериментирую с pdftohtml, но обнаруживаю, что иногда возникают трудности с правильным анализом таблиц. Он группирует текст из двух столбцов в одну ячейку, что делает мои попытки разобрать полученные данные бесполезными!

Обратите внимание, что это происходит только один или два раза в PDF и является довольно непредсказуемым.

Я пробовал последние версии pdftohtml (включая бета-версию 0.40a), но безрезультатно.

Кто-нибудь знает какие-нибудь Linux-совместимые эквиваленты, которые стоит попробовать?

Спасибо

Sam

1 Ответ

1 голос
/ 29 января 2015

pdf2htmlEX - лучший pdf-файл в формате html, который я видел.

установка: brew install pdf2htmlex

Мне пришлось использовать brew install -f pdf2htmlex

пример запуска: pdf2htmlEX --embed cfijo --dest-dir 'your-directory' your.pdf

, который создает новый каталог с .html и ref'd изображениями

...