В формате PDF рендеринг и извлечение текста - это два разных пути.В отличие от, скажем, HTML, в PDF это два отдельных действия.
Согласно тому, что вы указали, поток содержимого страницы имеет код символа \ 037 (восьмеричное).Для рендеринга используется кодировка, частью которой является разница, поэтому используется индекс глифа в кодировке шрифтов uni2713.
Однако для извлечения текста используется ToUnicode CMap.Вы можете убедиться в этом, открыв PDF-файл в различных программах чтения PDF-файлов и скопировав + вставив текст в текстовый редактор.
Причина этого заключается в том, что, хотя коды символов могут отображаться только на один глиф в конкретном шрифте,один и тот же код символа может отображаться в несколько значений Юникода.Скажите U + FB01 (лигатура).
и обнаружили, что не существует достаточно хорошей программы для извлечения текста и таблиц из PDF.
Возможно, вы не видели текст иинструмент для извлечения столов, разработанный компанией, для которой я работаю.https://www.pdftron.com/document-understanding
https://www.pdftron.com/pdf-tools/pdf-table-extraction