Я помню, что использовал Apache Lucene некоторое время назад для выполнения поиска внутри документов различного типа из Java, в том числе файлов PDF и Word.
Однако этот вопрос полностью зависит от языка программирования, который вы используете, поэтому, если вы не используете Java, вы можете указать его.