Поиск содержимого файлов Ms-word с использованием Java - PullRequest
2 голосов
/ 01 ноября 2011

Мое требование - поиск содержимого в нескольких файлах MS-word или Ms-Excel, которые находятся в одной папке. Как я могу реализовать это с помощью Java технологий? Пожалуйста, дайте мне обзор.

Спасибо

Ответы [ 3 ]

1 голос
/ 01 ноября 2011

Можно использовать Apache Tika для простого извлечения содержимого файла Microsoft Word и поиска по тексту.

Пример кода -

File f = new File("path to file");
FileInputStream is = new FileInputStream(f);
ContentHandler contenthandler = new BodyContentHandler();
Metadata metadata = new Metadata();
metadata.set(Metadata.RESOURCE_NAME_KEY, f.getName());
Parser parser = new AutoDetectParser();
parser.parse(is, contenthandler, metadata);
System.out.println(metadata.get(Metadata.TITLE));
System.out.println(contenthandler.toString());

Вы можете осуществлять поиск через contenthandler.toString (), который является содержимым.

1 голос
/ 01 ноября 2011

Вы можете в полной мере использовать доступные сторонние компоненты, такие как Apache POI (бесплатно) или ASPOSE (платно).В их документах должен был быть указан способ получения данных в документах MS.

См. Как читать содержимое из файлов MS Word с использованием POI Джакарты

0 голосов
/ 01 ноября 2011

Вы можете попробовать Aspose.Words для Java и Aspose.Cells для Java, чтобы извлечь содержимое из Microsoft Word и получить данные из документов Microsoft Excel соответственно. Обратите внимание, что эти два компонента не требуют установки Microsoft Office на компьютерах для разработки или развертывания. Вы можете попробовать эти компоненты обработки файлов на вашем конце.

Раскрытие информации: я работаю евангелистом разработчика в Aspose.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...