Как я могу преобразовать документ MS Word 2003 в HTML в C #? - PullRequest
1 голос
/ 25 мая 2009

Я бы хотел извлечь содержимое документа MS Word 2003 в HTML на C #.

Есть идеи?

Ответы [ 2 ]

3 голосов
/ 25 мая 2009

Я думаю, что это самый простой способ сделать это

http://asptutorials.net/C-SHARP/convert-ms-word-docs-to-html/

Ключевым моментом статьи является то, что они используют функцию SaveAs. http://msdn.microsoft.com/en-us/library/aa220734.aspx

Как это:

    string newfilename = folder_to_save_in + FileUpload1.FileName.Replace(".doc", ".html");
    object o_nullobject = System.Reflection.Missing.Value;    
    object o_newfilename = newfilename;
    object o_format = Word.WdSaveFormat.wdFormatHTML;
    object o_encoding = Microsoft.Office.Core.MsoEncoding.msoEncodingUTF8;
    object o_endings = Word.WdLineEndingType.wdCRLF;
    // SaveAs requires lots of parameters, but we can leave most of them empty:
    wordApplication.ActiveDocument.SaveAs(ref o_newfilename, ref o_format, ref o_nullobject,
    ref o_nullobject, ref o_nullobject, ref o_nullobject, ref o_nullobject, ref o_nullobject, ref o_nullobject,
    ref o_nullobject, ref o_nullobject, ref o_encoding, ref o_nullobject,
    ref o_nullobject, ref o_endings, ref o_nullobject);

Библиотека Microsoft.Office.Interop.Word;

Если я правильно помню, Word требуется на компьютере, на котором выполняется код. Если это ASP.NET, он требуется на сервере.

0 голосов
/ 26 мая 2009

Три способа: 1. сохранить как HTML, как описано в Napster 2. преобразовать Open XML в HTML; XSLT доступен в http://www.codeplex.com/OpenXMLViewer 3. для самого чистого HTML напишите код для преобразования каждого стиля в документе в CSS и поместите любое прямое форматирование в @style.

Установлено ли Word на компьютере с кодом C #?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...