Apache tika преобразует встроенный файл Word Pad в файл DOCX в файл .bin - PullRequest
0 голосов
/ 08 мая 2018

Я пытаюсь извлечь все встроенные файлы в текстовый файл (docx) и поместить вложенные файлы в отдельную папку. Я последовал примеру сообщества Apache здесь https://svn.apache.org/repos/asf/tika/trunk/tika-example/src/main/java/org/apache/tika/example/ExtractEmbeddedFiles.java

, хотя это в состоянии правильно проанализировать большинство встроенных объектов, но преобразует файлы встроенной панели слов в OleObject.bin. Я хочу получить доступ к файлу Word Pad в том же формате, в котором они были встроены в документ.

Я новичок в Apache Tika и не могу найти никакого решения для этого с помощью обычного поиска в Google, было упоминание об исправлении, связанном с моей проблемой в v1.3 Tika, но я использую 1.18, поэтому я думаю, что это исправлено, и я могу что-то упустить в реализации, пожалуйста, помогите мне с этой проблемой.

...