Как извлечь данные из файла docx, используя DocumentFormat.OpenXml - подробно ниже - PullRequest
0 голосов
/ 22 декабря 2011

У меня есть файл Docx, созданный путем добавления схемы XML.Я даю вам ссылку на файл docx. enter image description here

Теперь я хочу извлечь-- To, From, заголовок, тело.В настоящее время я использую библиотеку DocumentFormat.OpemXml.Но не удалось.Может ли кто-нибудь предложить мне шаги.

Ответы [ 2 ]

1 голос
/ 19 января 2012

Этот ответ запоздал, я знаю, но после долгих лет чтения этого сайта я могу помочь.

Как указывалось в предыдущем ответе, это так же просто, как открыть файл в виде zip-файла и изучить его содержимое. Этот подход может быть ограничивающим, если вы когда-нибудь намереваетесь выйти за рамки простого чтения некоторых данных.

Если вы этого еще не сделали, воспользуйтесь инструментом повышения производительности Open XML от Microsoft. Он устанавливается как часть openxml sdk . Это значительно облегчает поиск того, что вы ищете.

Другим отличным ресурсом является PowerTools для OpenXML , в основном набор командлетов powershell с открытым исходным кодом. Это лучший пример, который я когда-либо видел в кодировании с открытым XML-SDK.

-SDR

0 голосов
/ 29 декабря 2011

вы должны изучить DocumentFormat.OpenXml для извлечения ваших данных из файла docx.Или Другой метод заключается в том, что

Сначала преобразуйте расширение файла docx в .zip.После открытия zip-файла откройте файл document.xml.В этом файле вы найдете все ваши данные.Теперь вам просто нужно прочитать XML-файл на C # и извлечь данные.Вы используете класс xmlDocument и извлекаете данные

Я думаю, это будет полезно.

...