Разбить pdf с pdfbox, но потерять шрифт - PullRequest
1 голос
/ 03 октября 2011

Я написал некоторый код на Java, используя API pdfbox, который разбивает документ pdf на отдельные страницы, просматривает страницы для конкретной строки, а затем создает новый pdf со страницы со строкой на нем.Моя проблема в том, что когда новая страница сохраняется, я теряю свой шрифт.Я только что сделал быстрый текстовый документ, чтобы проверить его, и шрифт по умолчанию был откалиброван, поэтому при запуске программы я получаю сообщение об ошибке: «Невозможно извлечь встроенный шрифт ...».

Я видел много примеров кода, который показывает, как изменить шрифт, когда вы вводите текст для размещения в pdf, но ничего, что бы устанавливало шрифт для pdf.

Если кто-нибудь знает способ сделать это (или может найти документацию / примеры), я был бы очень признателен!

Редактировать: забыл включить пример кода

if (pageContent.indexOf(findThis) >= 0){
                PDPage pageToRip = pages.get(i);
                >>set the font of pageToRip here
                res.importPage(pageToRip); //res is the new document that will be saved
            }

Я не знаю, поможет ли это кому-нибудь, но я решил, что я включу его.

Кроме того, это то, на что похоже изменение, если pdf написан в calibri и разбит:

left:calibri, right:what it changes to

Примечание: это может быть не выпуск, это зависит от шрифта, используемого в файлах, которые необходимо обработать.Я попробовал некоторые вещи, кроме Calibri, и это сработало нормально.

1 Ответ

0 голосов
/ 03 октября 2011

С Как извлечь шрифты из PDF :

Вы фактически не можете извлечь шрифт из PDF, даже если шрифт полностью встроенный. Есть две причины, по которым это невозможно:

• Большинство шрифтов защищены авторским правом, что делает использование экстрактора незаконным.

• Когда шрифт внедрен в PDF, не все данные шрифта включен. Очевидно, что данные шрифта включены, а также таблицы ширины шрифта. Другая информация, такая как данные о лигатурах, не имеют отношения к PDF, поэтому эти данные не включаются в PDF. Я не знаю ни о каких инструментах извлечения шрифта, но если вы приедете Приведенные выше причины должны прояснить, что эти следует избегать утилит.

...