Apache Тика: Невозможно извлечь внедренный объект из файла RTF с помощью {\ * \ objclass Outlook.FileAttach} - PullRequest
0 голосов
/ 24 апреля 2020

У меня есть файл RTF со встроенной таблицей исключений. Я могу открыть файл RTF в MSword и могу открыть встроенную таблицу исключений. Я пытаюсь извлечь внедренную таблицу эксельсов, используя Apache Tika, но apache tika не может определить тип файла, поэтому создает извлечение встроенного объекта с расширением .unknown.

В файле RTF встроенный объект выглядит как

{{\ object \ objemb {* \ objclass Outlook.FileAttach} \ objw1440 \ objh1215 {* \ objdata

, поскольку objclass - это "Outlook.FileAttach" Apache Тика не может определить тип внедренного объекта.

Нужна помощь в определении типа внедренного объекта и способа его извлечения.

Я уже пытался переименовать в ".unknown" файл в ".msg", ".xls", ".xlsx", но не работал

...