Я использую в pdf2htmlEX
для преобразования PDF-файлов в HTML. Я также извлекаю текст из файла впоследствии.
Проблема:
Я столкнулся с файлом, что текст в преобразованном html не читается:
https://dspace.mit.edu/openaccess-disseminate/1721.1/101159
Команда, которую я использую:
pdf2htmlEX --tounicode 1 ./file.pdf
Текст в html имеет много пробелов и много кавычек -
[2] "М." Ха-хан, "О.", Арби, "Ф.П."
a m p a na, "R." K öt z, "R." Alla y, "A p p
л. "Физ." A: "M a te r." S ci. "P ro ce
сс. "8 2" (2 00 6) "
Установка других значений для аргумента --tounicode
делает текст бессмысленным.
Существует онлайн-инструмент, который использует эту библиотеку, и созданный там HTML-файл просто великолепен, что делает его не ошибкой pdf2htmlEX, а проблемой конфигурации или версий. Может быть что-то, связанное с попплером или шрифтом.
Версии:
pdf2htmlEX version 0.14.6
Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors
Libraries:
poppler 0.54.0
libfontforge 20180906
cairo 1.14.6
Default data-dir: /usr/local/share/pdf2htmlEX
Supported image format: png jpg svg
Есть предложения?