читать документ DOCX, используя Java - PullRequest
0 голосов
/ 26 июня 2018

У меня есть стеганография проекта, чтобы скрыть docx документ в jpeg изображение. Используя apache POI, я могу запустить его и прочитать документ docx, но можно читать только буквы.

Даже если в нем есть картинки.

Вот код

FileInputStream in = null;
    try
    {
        in = new FileInputStream(directory);
        XWPFDocument datax = new XWPFDocument(in);
        XWPFWordExtractor extract = new XWPFWordExtractor(datax);
        String DataFinal = extract.getText();
        BufferedReader reader = new BufferedReader(new InputStreamReader(in));
        String line = null;
        this.isi_file = extract.getText();
    }
    catch (IOException x) {}
        System.out.println("isi :" + this.isi_file);

Как я могу прочитать все компоненты в документе DOCX, используя Java? Пожалуйста, помогите мне и спасибо за вашу помощь.

1 Ответ

0 голосов
/ 26 июня 2018

Пожалуйста, проверьте документацию для XWPFDocument класса. Он содержит несколько полезных методов, например:

  • getAllPictures() возвращает список всех изображений в документе;
  • getTables() возвращает список всех таблиц в документе.

В вашем фрагменте кода есть строка XWPFDocument datax = new XWPFDocument(in);. Таким образом, после этой строки вы можете написать код вроде:

// process all pictures in document
for (XWPFPictureData picture : datax.getAllPictures()) {
    // get each picture as byte array
    byte[] pictureData = picture.getData();
    // process picture somehow
    ...
}
...