Использовать утилиту командной строки Apache Tika . Тика поддерживает широкий спектр форматов (например: DOC, DOCX, PDF, HTML, RTF ...)
java -jar tika-app-1.3.jar -t somedocfile.doc > converted.txt
Programatically:
File inputFile = ...;
Tika tika = new Tika();
String extractedText = tika.parseToString(inputFile);
Вы также можете использовать Apache POI . У них есть инструмент для извлечения текста из doc / docx Извлечение текста . Если вы хотите извлечь только текст, вы можете использовать код ниже. Если вы хотите извлечь Rich Text (например, форматирование и стиль), вы можете использовать Apache Tika.
Извлечь документ:
InputStream fis = new FileInputStream(...);
POITextExtractor extractor;
// if docx
if (fileName.toLowerCase().endsWith(".docx")) {
XWPFDocument doc = new XWPFDocument(fis);
extractor = new XWPFWordExtractor(doc);
} else {
// if doc
POIFSFileSystem fileSystem = new POIFSFileSystem(fis);
extractor = ExtractorFactory.createExtractor(fileSystem);
}
String extractedText = extractor.getText();