Один подход не может прочитать каждый текст. Вы должны применить несколько подходов для нескольких типов PDF.
Если текст не является горизонтальным, вы должны повернуть текст. Если текст искривлен, вы должны использовать преобразование (например, hog transform).
Кроме того, для чтения текста с использованием пакета тексты должны быть четкими и горизонтальными. В противном случае вам нужно создать правила и трансформировать их.