Кодировка шрифта в документах PDF указывается в объекте словаря шрифтов. Шрифт, с которым вы сталкиваетесь, кодируется с помощью UniCNS-UCS2-H, который, насколько я могу судить, является вариантом китайской кодировки.
PDFBox поддерживает только 4 кодировки:
- PDFDocEncoding
- MacRomanEncoding
- Стандартное кодирование
- WinAnsiEncoding
Они определены в объекте словаря шрифтов внутри потока PDF
(например, .../Encoding/WinAnsiEncoding/...
)
Когда PDFBox встречает неизвестную кодировку, отображается исключение, о котором вы сообщили.
Для получения дополнительной информации о шрифтах в документах PDF см. Раздел 9.5–9.8 спецификации PDF