Я создаю приложение, которое должно программно извлекать все встроенные файлы, изображения и текст из файлов DOCX, XLSX и PPTX.Когда я просматриваю файлы DOCX, я вижу, что это просто zip-пакеты.В корне пакета всегда есть файл с именем [Content_Types] .xml.Внутри этого файла я могу найти расположение файла Document.xml, который содержит весь текст.Это необходимо, потому что, насколько я понимаю, файл не всегда гарантированно находится в одном и том же месте.Это достаточно просто, но я не могу найти никаких документов, указывающих, как хранятся все изображения и внедренные файлы (контейнеры Word или Ole).
Мне кажется, что все внедренные файлы добавляются в каталог Embeddingsи все изображения будут добавлены в каталог Media.Тем не менее, я не могу найти ничего, что скажет мне это наверняка.Кроме того, ни один из файлов xml в архиве не отображает информацию о местоположении для сохраненных изображений и файлов, поэтому мне остается думать, что они всегда в каталогах Embeddings и Media.
Как я уже говорилМне нужно извлечь все встроенные файлы, изображения и текст из файлов DOCX, XLSX и PPTX.Мне нужно сделать это на сервере, где у меня не будет установлен Office.Если кто-то уже сделал это и может указать мне правильное направление, я был бы признателен.
Спасибо,