PDF использует как текстовые, так и двоичные данные. DOC, я думаю, полностью бинарный. DocX - это, по сути, заархивированный файл (следовательно, бинарный). Выполнение текстового поиска в этих форматах без надлежащего парсера может оказаться невозможным.