Как правильно создать многоязычные метаданные в pdftk? - PullRequest
0 голосов
/ 04 июня 2018

pdftk позволяет установить заголовок PDF с помощью следующей команды:

pdftk input.pdf update_info metadata.txt output output.pdf

Однако, если я использую специальные символы в файле metadata.txt (например, немецкие или китайские символы), тогда онне похоже на работу.

Вот пример изменения названия:

InfoBegin
InfoKey: Title
InfoValue: Fingerspitzengefühl is a German term.

Однако PDF заканчивается странным символом для ü

In документация pdftk гласит, что не-ASCII символы должны быть закодированы как числовые объекты XML.Тем не менее, я глупо погуглил себя, но не смог найти ничего подходящего.

1 Ответ

0 голосов
/ 08 июня 2018

Лучшая ссылка, которую я нашел, это Числовая ссылка на символы , которая применима к XML (и XHTML и SGML).

Это обычно используется для представления символов, которые не являются непосредственнымикодируемый.

В вашем случае символом является U + 252, ü, который можно заменить на ü (десятичное число), &0374; (восьмеричное) или ü (шестнадцатеричное).

Используя десятичную ссылку, ваш файл должен быть закодирован как:

InfoBegin
InfoKey: Title
InfoValue: Fingerspitzengefühl is a German term.

Примечание:

Если вы используете Nix, вы можетеиспользуйте recode для кодирования файла.

% cat metadata.txt | recode ..xml
...