Звучит так, как будто вы имеете дело с отсканированными книгами с "скрытым распознаванием", т.е.PDF показывает изображение оригинального документа, за которым находится слой текста OCRed.Это позволяет использовать функцию поиска и копировать и вставлять текст из документа.
При выделении текста скрытые символы становятся видимыми (хотя это может зависеть от используемого вами средства просмотра).Чтобы быть уверенным, вы можете скопировать и вставить выделенный текст в текстовый редактор.Это позволит вам определить, действительно ли вы так плохо относитесь к качеству распознавания текста или ваш процесс извлечения вызвал моджибаке.Поскольку качество распознавания в значительной степени зависит от языковых ресурсов (словарей, языковой модели), я не удивлюсь, если результат будет настолько плохим для языка с низким уровнем ресурсов, как гэльский (староирландский?).