Что у вас там есть файл PDF;в то время как частично основанные на ASCII-тексте файлы PDF не являются простым текстом.Вы можете найти способ декодировать даже магические байты в заголовке (это должен делать iso8859-1), но как только вы попадете в поток, сжатый дефлятом, вы получите последовательности с полной энтропией 256 байтов, которые не могут быть осмысленно декодированыс любым кодеком.
IOW: нет никакого способа осмысленно декодировать все содержимое байта PDF-файла в строку Unicode, так как это не прямое представление кодовых точек Unicode любого вида.Это все равно, что пытаться декодировать файл JPEG в строку Unicode: это бессмысленно и , это невозможно.
Если вы хотите извлечь текст из файла PDF, вам нужно фактически разобратьи расшифровать его структуру, что совсем не тривиально.