Это только вершина айсберга ...
Обнаружение "байтов", закодированных в TJ, не означает, что у вас уже есть "текст" или даже вы можете вообще его преобразовать.
В PDF при рисовании текста есть «активный» шрифт (Tf).Шрифт имеет кодировку - вокруг много разных кодировок, и некоторые не являются «обратимыми» в том смысле, что вы можете получить из него юникод.
Если у вас есть «обратимая» кодировка, это нормально.Для реализации обратного поиска все еще много работы (особенно для многобайтовых кодировок ...), но в один прекрасный день все готово.
Если ваша кодировка не такая умная, у вас все еще может быть дополнительная карта / ToUnicode, которая позволяет вычислять Unicode.Дополнительные усилия, но теперь ваш штраф.
... помимо множества существующих документов, которые не поддерживают ни одно из этих сопоставлений с юникодом ...
... и в конце концов: PDF делаетне содержит «текст» в этом смысле, он рисует символы.Таким образом, теоретически вы должны нарисовать символы на виртуальной странице, прежде чем сможете отсортировать их в любом удобочитаемом порядке ...
В целом, это очень весело.