Библиотека Java для чтения документов Word - PullRequest
2 голосов
/ 12 октября 2011

Существует ли библиотека Java с открытым исходным кодом для чтения документов Word (как .docx, так и более старого формата .doc)?

Доступ только для чтения, если достаточно;Мне не нужно изменять документы Word, используя Java.Однако я хотел бы получить доступ к изображениям и информации о стилях.

РЕДАКТИРОВАТЬ

Я проверил Apache POI, но это не похожеактивно поддерживается.См. http://poi.apache.org/hwpf/index.html:

В настоящее время, к сожалению, у нас нет кого-то, кто бы заботился о HWPF и способствовал его развитию.

Ответы [ 3 ]

7 голосов
/ 12 октября 2011

Apache POI HWPF для .doc и XWPF для .docx файлов

5 голосов
/ 12 октября 2011

Существует проект apache, который делает это: http://poi.apache.org//

1 голос
/ 28 ноября 2013
public class XParseTest 
{
    public static void main(String[] args) throws XmlException, OpenXML4JException, IOException 
    {
        File file=new File("e:\\testing\\new.docx");
        FileInputStream fs = new FileInputStream(file);
        OPCPackage d = OPCPackage.open(fs);
        XWPFWordExtractor xw = new XWPFWordExtractor(d);
        System.out.println(xw.getText());    

    }

}

это будет анализировать файл docx ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...