Microsoft DOCX, XLSX и PPTX Архив - PullRequest
       48

Microsoft DOCX, XLSX и PPTX Архив

1 голос
/ 24 декабря 2011

Я создаю приложение, которое должно программно извлекать все встроенные файлы, изображения и текст из файлов DOCX, XLSX и PPTX.Когда я просматриваю файлы DOCX, я вижу, что это просто zip-пакеты.В корне пакета всегда есть файл с именем [Content_Types] .xml.Внутри этого файла я могу найти расположение файла Document.xml, который содержит весь текст.Это необходимо, потому что, насколько я понимаю, файл не всегда гарантированно находится в одном и том же месте.Это достаточно просто, но я не могу найти никаких документов, указывающих, как хранятся все изображения и внедренные файлы (контейнеры Word или Ole).

Мне кажется, что все внедренные файлы добавляются в каталог Embeddingsи все изображения будут добавлены в каталог Media.Тем не менее, я не могу найти ничего, что скажет мне это наверняка.Кроме того, ни один из файлов xml в архиве не отображает информацию о местоположении для сохраненных изображений и файлов, поэтому мне остается думать, что они всегда в каталогах Embeddings и Media.

Как я уже говорилМне нужно извлечь все встроенные файлы, изображения и текст из файлов DOCX, XLSX и PPTX.Мне нужно сделать это на сервере, где у меня не будет установлен Office.Если кто-то уже сделал это и может указать мне правильное направление, я был бы признателен.

Спасибо,

1 Ответ

0 голосов
/ 25 декабря 2011

Microsoft имеет SDK для обработки офисных документов XML, который называется «Open XML SDK», который поддерживается также на серверах.

Я сам не пробовал, но, по-видимому, он содержит API для извлечения таких элементов, как встроенные объекты, без обращения к файлам zip или документации ISO.Это также будет безопаснее, поскольку файловые структуры могут со временем меняться.

Kemal

...