Question

У меня возникла проблема с методом getHtml() в officejs (Javascript API для Word).

У меня есть Word Addin, работающий в Word 2016 (32-разрядная версия, для настольных компьютеров), который использует следующий код для извлечения html тела документа:

  Word.run(function (context) {

        // Queue a command to get the current selection and then
        // create a proxy range object with the results.
        var range = context.document.body;

        var bodyHTML = range.getHtml();
        // variable for keeping the search results for the longest word.
        var searchResults;

        // Queue a command to load the range selection result.
        context.load(range, 'text');

        // Synchronize the document state by executing the queued commands
        // and return a promise to indicate task completion.
        return context.sync()
            .then(function () {
               let html = bodyHTML.value; 
            });
    })
    .catch(errorHandler);

Однако возвращенный HTML содержит неправильные символы для кодировки в метатеге <meta http-equiv=Content-Type content="text/html; charset=utf-8">

Например, в этом документе:

Я получаю следующее:

Как получить HTML в правильной кодировке?

Обновление

Чтобы доказать, что это не проблема визуализатора, вот скриншот html визуализатора тоже:

Еще одно обновление ...

Вот мой временный обходной путь ( Примечание: не решение этой проблемы, это просто временное исправление, которое я использую для продолжения разработки, надеясь, что API исправлен ):

 function fixAnsiUtf8Issue(str) {
        var repl =
            [
            { "from": "â‚¬", "to": "€" },
            { "from": "â€š", "to": "‚" },
            { "from": "â€ž", "to": "„" },
            { "from": "â€¦", "to": "…" },
            { "from": "â€¡", "to": "‡" },
            { "from": "â€°", "to": "‰" },
            { "from": "â€¹", "to": "‹" },
            { "from": "â€˜", "to": "‘" },
            { "from": "â€™", "to": "’" },
            { "from": "â€œ", "to": "“" },
            { "from": "â€¢", "to": "•" },
            { "from": "â€“", "to": "–" },
            { "from": "â€”", "to": "—" },
            { "from": "â„¢", "to": "™" },
            { "from": "â€º", "to": "›" },
            // worried that this might interfere with the entry below - which is much more common in our context (hence the commenting out)
            //{ "from": "â€ ", "to": "†" },
            { "from": "â€", "to": "”" },
            { "from": "Æ’", "to": "ƒ" },
            { "from": "Ë†", "to": "ˆ" },
            { "from": "Å’", "to": "Œ" },
            { "from": "Å½", "to": "Ž" },
            { "from": "Ëœ", "to": "˜" },
            { "from": "Å¡", "to": "š" },
            { "from": "Å“", "to": "œ" },
            { "from": "Å¾", "to": "ž" },
            { "from": "Å¸", "to": "Ÿ" },
            { "from": "Â¡", "to": "¡" },
            { "from": "Â¢", "to": "¢" },
            { "from": "Â£", "to": "£" },
            { "from": "Â¤", "to": "¤" },
            { "from": "Â¥", "to": "¥" },
            { "from": "Â¦", "to": "¦" },
            { "from": "Â§", "to": "§" },
            { "from": "Â¨", "to": "¨" },
            { "from": "Â©", "to": "©" },
            { "from": "Âª", "to": "ª" },
            { "from": "Â«", "to": "«" },
            { "from": "Â¬", "to": "¬" },
            { "from": "Â®", "to": "®" },
            { "from": "Â¯", "to": "¯" },
            { "from": "Â°", "to": "°" },
            { "from": "Â±", "to": "±" },
            { "from": "Â²", "to": "²" },
            { "from": "Â³", "to": "³" },
            { "from": "Â´", "to": "´" },
            { "from": "Âµ", "to": "µ" },
            { "from": "Â¶", "to": "¶" },
            { "from": "Â·", "to": "·" },
            { "from": "Â¸", "to": "¸" },
            { "from": "Â¹", "to": "¹" },
            { "from": "Âº", "to": "º" },
            { "from": "Â»", "to": "»" },
            { "from": "Â¼", "to": "¼" },
            { "from": "Â½", "to": "½" },
            { "from": "Â¾", "to": "¾" },
            { "from": "Â¿", "to": "¿" },
            { "from": "Ã€", "to": "À" },
            { "from": "Â", "to": "" },
            { "from": "Ã‚", "to": "Â" },
            { "from": "Ãƒ", "to": "Ã" },
            { "from": "Ã„", "to": "Ä" },
            { "from": "Ã…", "to": "Å" },
            { "from": "Ã†", "to": "Æ" },
            { "from": "Ã‡", "to": "Ç" },
            { "from": "Ãˆ", "to": "È" },
            { "from": "Ã‰", "to": "É" },
            { "from": "ÃŠ", "to": "Ê" },
            { "from": "Ã‹", "to": "Ë" },
            { "from": "ÃŒ", "to": "Ì" },
            { "from": "ÃŽ", "to": "Î" },
            { "from": "Ã‘", "to": "Ñ" },
            { "from": "Ã’", "to": "Ò" },
            { "from": "Ã“", "to": "Ó" },
            { "from": "Ã”", "to": "Ô" },
            { "from": "Ã•", "to": "Õ" },
            { "from": "Ã–", "to": "Ö" },
            { "from": "Ã—", "to": "×" },
            { "from": "Ã˜", "to": "Ø" },
            { "from": "Ã™", "to": "Ù" },
            { "from": "Ãš", "to": "Ú" },
            { "from": "Ã›", "to": "Û" },
            { "from": "Ãœ", "to": "Ü" },
            { "from": "Ãž", "to": "Þ" },
            { "from": "ÃŸ", "to": "ß" },
            { "from": "Ã¡", "to": "á" },
            { "from": "Ã¢", "to": "â" },
            { "from": "Ã£", "to": "ã" },
            { "from": "Ã¤", "to": "ä" },
            { "from": "Ã¥", "to": "å" },
            { "from": "Ã¦", "to": "æ" },
            { "from": "Ã§", "to": "ç" },
            { "from": "Ã¨", "to": "è" },
            { "from": "Ã©", "to": "é" },
            { "from": "Ãª", "to": "ê" },
            { "from": "Ã«", "to": "ë" },
            { "from": "Ã¬", "to": "ì" },
            { "from": "Ã", "to": "í" },
            { "from": "Ã®", "to": "î" },
            { "from": "Ã¯", "to": "ï" },
            { "from": "Ã°", "to": "ð" },
            { "from": "Ã±", "to": "ñ" },
            { "from": "Ã²", "to": "ò" },
            { "from": "Ã³", "to": "ó" },
            { "from": "Ã´", "to": "ô" },
            { "from": "Ãµ", "to": "õ" },
            { "from": "Ã¶", "to": "ö" },
            { "from": "Ã·", "to": "÷" },
            { "from": "Ã¸", "to": "ø" },
            { "from": "Ã¹", "to": "ù" },
            { "from": "Ãº", "to": "ú" },
            { "from": "Ã»", "to": "û" },
            { "from": "Ã¼", "to": "ü" },
            { "from": "Ã½", "to": "ý" },
            { "from": "Ã¾", "to": "þ" },
            { "from": "Ã¿", "to": "ÿ" },
            { "from": "Ã ", "to": "à" },
            { "from": "Å ", "to": "Š" },
            { "from": "Ã", "to": "Á" },
            { "from": "Ã", "to": "Í" },
            { "from": "Ã", "to": "Ï" },
            { "from": "Ã", "to": "Ð" },
            { "from": "Ã", "to": "Ý" },
            ];

      for (let i = 0, replLength = repl.length; i < replLength; i++) {
          const o = repl[i];
          var re = new RegExp(o.from, 'g');
          str = str.replace(re, o.to);
      }

      return str;
    }

Проблема с кодировкой getHtml () в officejs

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Проблема с кодировкой getHtml () в officejs

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы