hwpf, xwpf, hssf и xslf извлечение картинок poi - PullRequest
0 голосов
/ 06 июня 2019

Я собираюсь извлечь все изображения из новых и устаревших документов Word и электронных таблиц, чтобы помочь в системе классификации документов в реальном времени, и, глядя на документацию, я, похоже, столкнулся с проблемой.У меня нет проблем с поиском документации в модуле hwpf и пакетах для извлечения изображений из файла, но когда дело доходит до других 3, кажется, что они не поддерживают те же методы.

ЧтоЯ хочу иметь один блок кода, который не зависит от типа документа, когда речь идет о 4 вышеупомянутых типах, я просто хочу быстрый и простой доступ к изображениям в файлах, чтобы я мог перейти к своей следующей задаче, нона данный момент похоже, что только модуль hwpf поддерживает извлечение изображений или методов из «PicturesTable».

Я также несколько обеспокоен производительностью библиотеки: похоже, что он загружает весь файл, когдавсе, что я хочу сделать, это вычистить изображения из этого.Любые предложения по библиотеке, которая работает непосредственно с потоком данных «Data» и структурой папок .***x zip-файлов?

Я уже пытался использовать OLEtools, чтобы попытаться извлечь изображения из потоков, и ясейчас перехожу к этому инструменту.Хотя я еще не пробовал использовать инструменты, которые работают на нижних уровнях документов.

...