Я думаю PDFKitten - хороший пример кода для парсера PDF.
Если вы хотите работать с кодом не-ASCII, особенно с кодом CJK (китайский-японско-корейский), вам также нужны знания о Adobe CID.
В основном вы должны делать следующее.
1 Получите пример кода парсера PDF, например PDFKitten.
2 Напишите функцию обратного вызова для оператора Tj и TJ. В функции обратного вызова вы получите строку для печати.
3 Вы знаете остальную часть проекта.