PDF - это очень сложная спецификация, и можно создать так много вариантов, которые невозможно надежно проанализировать, если вы не используете те же инструменты для чтения, которые использовались для его создания (и часто даже тогда). Существует несколько инструментов, которые сглаживают PDF в текстовую строку (например, pdf2text), и их можно искать, но это ненадежно.
Многие инструменты PDF реализуют только некоторые спецификации. Некоторые люди предполагают, что лучший способ поиска в PDF - это уменьшить изображение, а затем распознать его.