Ищите обходной путь для успешного преобразования PDType0Font и PDType1Fonts с помощью pdf2dom - PullRequest
0 голосов
/ 23 декабря 2018

Мы используем библиотеку pdf2dom для преобразования большого набора газетных pdf-файлов в html.Количество рассматриваемых PDF-файлов превышает 5 тыс. Страниц в день.

Несмотря на то, что мы преуспели в большинстве случаев и сценариев, в большинстве случаев нам не удается полностью преобразовать PDF-файлы.и получите следующие типы ошибок -

Шрифт: Helvetica пропущен, поскольку тип 'PDType1Font' не поддерживается.

и

Couldне найти код символа для имени глифа.Имя: 'дробь' GlyphID: '217' Не удалось найти код символа для имени глифа.Имя: 'fi' GlyphID: '218' Не удалось найти код символа для имени глифа.Имя: 'fl' GlyphID: '219' Не удалось найти код символа для имени глифа.Имя: 'breve' GlyphID: '220' Не удалось найти код символа для имени глифа.Имя: 'dotaccent' GlyphID: '221' Не удалось найти код символа для имени глифа.Имя: 'ring' GlyphID: '222'

и

Ошибка преобразования шрифта Bare CFF или тип шрифта не поддерживается Pdf2Dom, Шрифт: UniversLTStd-Bold Исключение:Индекс: 0, размер: 0 класс java.lang.IndexOutOfBoundsException

и

Шрифт: RXKFZF + * Calibri-Bold пропущен, поскольку тип 'PDType0Font' не поддерживается.

Поскольку наша цель - преобразовать pdf в html с полным текстом и информацией соответствующего формата, например, размером / полужирным шрифтом / курсивом и т. Д., И мы можем игнорировать шрифт, мы ищем эффективный способ преобразования /замените неподдерживаемые шрифты Type 1 и Type 0 эквивалентными шрифтами.

Любые обходные пути и указатели были бы чрезвычайно полезны.

...