Каков наилучший способ получить чистый семантический XHTML из документов MS Word? - PullRequest
1 голос
/ 18 декабря 2009

Несколько дней назад я получил довольно длинный и несколько сложный документ MS Word, который меня попросили преобразовать в HTML для загрузки на сторонний веб-сайт. Моим первым инстинктом было сохранить документ Word в формате HTML и использовать команду Dreamweaver «Очистить Word HTML». Но я не только должен был оставить его включенным всю ночь, чтобы Dreamweaver завершил «очистку», но результаты, по моему мнению, были далеко не желательны. В Dreamweaver все еще оставалось много встроенных стилей и т. Д., Которые просто пропустили.

Этим утром я подошел к нему по-другому и просто выбрал весь документ в Word, скопировал его, а затем вставил в окно «Дизайн Dreamweaver». Мало того, что это было намного, намного быстрее, но выходной код был намного, намного чище! Мне также не нужно было запускать команду «Очистить слово HTML».

Теперь я никогда не конвертирую Word-файл прямо в HTML по стандартным причинам. Вместо этого я вырезал и вставлял содержимое между Word и Dreamweaver. К счастью, я могу сделать следующее.

  1. Если заголовок Word выполнен в стиле «Заголовок 1», он станет H1 в Dreamweaver (после таблицы стилей Dreamweaver). Аналогичным образом, заголовок 2 становится H2, заголовок 3 становится H3 и т. Д.

    Если автор Word не был таким организованным, вы можете использовать ярлык, например Control + 1 (или Command + 1) на Mac, чтобы преобразовать любую строку в H1. Можете ли вы угадать ярлык для H2? Да, это Control + 2 или Command + 2 на Mac.

  2. Теперь абзацы вырезать и вставлять как абзацы (с тегом P). Если вам не нужен HTML-абзац прямо сейчас, используйте Control + 0 (или Command + 0 на Mac), чтобы удалить его в Dreameaver.

  3. Новое, что я обнаружил, заключается в том, что некоторые встроенные изображения в Word могут быть перенесены на ваш сайт Dreamweaver в виде «клиповых» изображений при копировании и вставке из Word. Таким образом, если у вас есть файл Word со встроенными изображениями, вы можете извлечь их довольно быстро с помощью Dreamweaver.

Мне также показалось, что этот бесплатный инструмент полезен http://www.textfixer.com/html/convert-word-to-html.php Он работает так же, как дизайн-представление Dreamweaver, полезно для людей, у которых нет Dreamweaver.

но какой код мы получим, зависит от того, насколько правильно отформатирован документ MS Word?

WORD 2007 также имеет стиль, как HTML?

Заголовки, таблицы, упорядоченные и неупорядоченные списки, полужирный, курсив, гиперссылки и т. Д.

Как использовать слово 2007 семантически?

  • Чтобы получить максимально возможную семантическую HTML при сохранении в качестве опции HTML

  • Чтобы получить максимально возможный чистый код для Скопировать в режиме конструктора Dreamweaver?

  • Чтобы получить максимально возможный чистый код для разместить браузер на основе WYSIWYG HTML
    Редактор, который поставляется с каждым CMS

Кто-нибудь знает какие-либо советы, хитрости, руководства, статьи или рекомендации по семантическому форматированию документов MS WORD?

Или как-нибудь иначе, чем мой?

Ответы [ 5 ]

3 голосов
/ 21 декабря 2009
  • HTML Tidy имеет опции для этого: word-2000, bare и clean.

  • FCKEditor и аналогичные программы пытаются очистить код, вставленный из Word.

  • Есть (довольно старый сейчас) деморонизатор .

Однако не ожидайте чудес. Маловероятно, что документ Word будет иметь приличную структуру (теоретически это возможно, но ни один пользователь Word не беспокоится об этом). Эти программы не могут добавить семантическую информацию, если ее там нет.

Что касается семантического редактирования в Word - используйте стили. Он поддерживает заголовки должным образом (к сожалению, не так много другого). Вы можете проверить это в виде структуры.

Вам не нужны - и не должны использоваться - пробелы или разрывы строк для отступа или корректировки пробела. Word имеет возможность явно контролировать заполнение абзацев.

1 голос
/ 05 января 2010

Я обнаружил, что HTML-генератор OpenOffice.org (откройте .doc в ОО и сохраните как HTML) работает лучше, чем MS в Office.

Это все еще не идеально, но дает НАМНОГО более чистый HTML, на который гораздо более разумно смотреть.

0 голосов
/ 09 февраля 2013

Попробуйте наше Doc To HTML Converter программное обеспечение. Он был разработан специально для создания максимально возможного чистого (X) HTML-кода и имеет множество настраиваемых параметров. Это требует MS Word для установки в вашей системе. Это не бесплатно, но есть пробный 30-дневный период.

0 голосов
/ 19 декабря 2009

ты пробовал это? Word Cleaner

0 голосов
/ 18 декабря 2009

Нет надежного способа очистить документы WORD и превратить их в красивый HTML. Если в документе есть какие-либо специальные символы, они часто кодируются как кодировка Windows вместо UTF-8, поэтому они просто «ломаются» при отображении в Интернете. Список можно продолжить. Вы часто заканчиваете глупостью как:

<strong>hello</strong><strong>th<strong>er</strong>e</strong><i></i>

Единственный способ, который можно развязать, - это вставить его в блокнот и разметить вручную. Вы можете написать несколько макросов для выполнения таких операций, как вставка <p></p> при разрыве абзаца, но это все.

Если существует большой объем материалов, которые необходимо отправить в Интернет из Word, вам лучше использовать PDF.

...