Объединение документов HTML с другой кодировкой - PullRequest
1 голос
/ 09 июня 2011

Я сохранил документ MS-Word с опцией «сохранить как» «Веб-страница, отфильтровано».Я хочу вставить код HTML и CSS, который был сгенерирован внутри документа HTML5, в котором есть мой заголовок, меню, нижний колонтитул и т. Д. Первый вопрос касается информации о наборе символов и заголовке:

HTML-код, сгенерированный MS-Word (сохраненный как «веб-страница, отфильтрованная»):

<html>

<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=Generator content="Microsoft Word 12 (filtered)">

Мой шаблон HTML5:

<!DOCTYPE html>
<html lang="en">

<head>
    <meta charset="UTF-8" /> 

Основная проблема, которую я вижу, это дверазличные наборы символов (UTF-8 против windows-1252) .Кроме того, я предполагаю, что метатег " name = Generator content =" Microsoft Word 12 (отфильтрованный)"не будет проблемой и, возможно, может быть просто удален (?).

IМожно отсортировать CSS с одним исключением. Я не знаю, что означает символ '@'. Пример:

@font-face
    {font-family:"Book Antiqua";
    panose-1:2 4 6 2 5 3 5 3 3 4;}

Я просмотрел документ и не вижу идентификаторов или классов "font-face".Так что я предполагаю , что может изменить все шрифты в документе. Это может быть проблемой (если это правда), как указано, новый документ будет иметь мое меню, заголовок, нижний колонтитул и т. Д.

Ответы [ 2 ]

0 голосов
/ 10 июля 2015

Вот набор сценариев PowerShell, которые будут чистить HTML, отфильтрованный по Word, и правильно помечать супер / подписки примерно в 95% случаев. (Нет, лучше не получится, Word создан для печати.)

https://github.com/suzumakes/replaceit

Это также изменяет символы, которые M $ barfs выводит в классе windows-1252, на их соответствующие аналоги UTF-8. Он удаляет все стили и классы, так что вы можете поместить HTML прямо в шаблон с минимальными усилиями. В зависимости от того, насколько сумасшедшим был человек, создавший документ Word, с обоснованием текста и прикольными макетами, вам может потребоваться всего несколько минут очистки, или вам может понадобиться исправить склонность M $ вставлять мягкие дефисы повсюду.

Инструкции есть в ReadMe, и если вы столкнетесь с какими-либо дополнительными символами, которые нужно поймать или придумать какие-либо изменения / улучшения, я был бы рад увидеть ваш запрос на извлечение.

0 голосов
/ 09 июня 2011

Вы не должны копировать и вставлять что-либо, что MS Office высмеивает на веб-сайте; главным образом потому, что ваш код становится большим беспорядком, и он, скорее всего, будет выглядеть только в IE. Это только мой опыт после того, как я получил много "Ваш сайт не работает !!!" жалуется после того, как кто-то вставил ms-word- "html" в страницы Joomla. В любом случае, кодировка на вашем сайте должна быть utf-8. Ваше @ font-face выглядит сломанным для меня. Я знаю это только в несколько ином синтаксисе:

@font-face {
  font-family: "Awesomefont";
  src: url("fonts/awesome.ttf");
}

это само по себе ничего не сделает, пока вы не примените Awesomefont где-нибудь еще:

h1 { font-family: "Awesomefont"; }
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...