Question

Я экспериментирую с pdftohtml, но обнаруживаю, что иногда возникают трудности с правильным анализом таблиц. Он группирует текст из двух столбцов в одну ячейку, что делает мои попытки разобрать полученные данные бесполезными!

Обратите внимание, что это происходит только один или два раза в PDF и является довольно непредсказуемым.

Я пробовал последние версии pdftohtml (включая бета-версию 0.40a), но безрезультатно.

Кто-нибудь знает какие-нибудь Linux-совместимые эквиваленты, которые стоит попробовать?

Спасибо

Sam

irth · Answer 1 · 29 января 2015

pdf2htmlEX - лучший pdf-файл в формате html, который я видел.

установка: brew install pdf2htmlex

Мне пришлось использовать brew install -f pdf2htmlex

пример запуска: pdf2htmlEX --embed cfijo --dest-dir 'your-directory' your.pdf

, который создает новый каталог с .html и ref'd изображениями

Альтернативы pdftohtml

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Альтернативы pdftohtml

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы