Я экспериментирую с pdftohtml, но обнаруживаю, что иногда возникают трудности с правильным анализом таблиц. Он группирует текст из двух столбцов в одну ячейку, что делает мои попытки разобрать полученные данные бесполезными!
Обратите внимание, что это происходит только один или два раза в PDF и является довольно непредсказуемым.
Я пробовал последние версии pdftohtml (включая бета-версию 0.40a), но безрезультатно.
Кто-нибудь знает какие-нибудь Linux-совместимые эквиваленты, которые стоит попробовать?
Спасибо
Sam