Мы используем библиотеку pdf2dom для преобразования большого набора газетных pdf-файлов в html.Количество рассматриваемых PDF-файлов превышает 5 тыс. Страниц в день.
Несмотря на то, что мы преуспели в большинстве случаев и сценариев, в большинстве случаев нам не удается полностью преобразовать PDF-файлы.и получите следующие типы ошибок -
Шрифт: Helvetica пропущен, поскольку тип 'PDType1Font' не поддерживается.
и
Couldне найти код символа для имени глифа.Имя: 'дробь' GlyphID: '217' Не удалось найти код символа для имени глифа.Имя: 'fi' GlyphID: '218' Не удалось найти код символа для имени глифа.Имя: 'fl' GlyphID: '219' Не удалось найти код символа для имени глифа.Имя: 'breve' GlyphID: '220' Не удалось найти код символа для имени глифа.Имя: 'dotaccent' GlyphID: '221' Не удалось найти код символа для имени глифа.Имя: 'ring' GlyphID: '222'
и
Ошибка преобразования шрифта Bare CFF или тип шрифта не поддерживается Pdf2Dom, Шрифт: UniversLTStd-Bold Исключение:Индекс: 0, размер: 0 класс java.lang.IndexOutOfBoundsException
и
Шрифт: RXKFZF + * Calibri-Bold пропущен, поскольку тип 'PDType0Font' не поддерживается.
Поскольку наша цель - преобразовать pdf в html с полным текстом и информацией соответствующего формата, например, размером / полужирным шрифтом / курсивом и т. Д., И мы можем игнорировать шрифт, мы ищем эффективный способ преобразования /замените неподдерживаемые шрифты Type 1 и Type 0 эквивалентными шрифтами.
Любые обходные пути и указатели были бы чрезвычайно полезны.