Можно использовать Apache Tika для простого извлечения содержимого файла Microsoft Word и поиска по тексту.
Пример кода -
File f = new File("path to file");
FileInputStream is = new FileInputStream(f);
ContentHandler contenthandler = new BodyContentHandler();
Metadata metadata = new Metadata();
metadata.set(Metadata.RESOURCE_NAME_KEY, f.getName());
Parser parser = new AutoDetectParser();
parser.parse(is, contenthandler, metadata);
System.out.println(metadata.get(Metadata.TITLE));
System.out.println(contenthandler.toString());
Вы можете осуществлять поиск через contenthandler.toString (), который является содержимым.