Вы можете использовать Apache Tika . Tika - это набор инструментов для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек синтаксического анализатора.
Поддерживаемые форматы документов
- Язык разметки гипертекста
- XML и производные форматы
- Форматы документов Microsoft Office
- Формат OpenDocument
- Формат переносимого документа
- Формат электронной публикации
- Rich Text Format
- форматы сжатия и упаковки
- Текстовые форматы
- Аудио форматы
- Форматы изображений
- Форматы видео
- Файлы и архивы классов Java
- Формат mbox
Код будет выглядеть следующим образом.
Читатель читатель = новая Тика (). Parse (поток);