Как остановить HtmlTidy от преобразования умлаутов (например, ü в & uuml;) - PullRequest
2 голосов
/ 16 марта 2010

Наш сайт выполняет ввод пользователя через HtmlTidy, чтобы очистить его. Очевидно, что при этом это также причиняет боль нашим международным подписчикам, превращая умлауты. Есть ли возможность указать для HtmlTidy, чтобы не делать этого?

Я пробовал CharacterEncoding со всеми возможными опциями, но, похоже, ничего не работает.

1 Ответ

1 голос
/ 16 марта 2010

Просто укажите выходную кодировку (входная кодировка необязательна) в файле конфигурации:

input-encoding: win1252
output-encoding: latin1

Для обзора доступных кодировок см. Документацию выходной кодировки .

РЕДАКТИРОВАТЬ: Таким образом, вы используете .NET привязки . Это те же самые настройки:

Document d = new Document(new FileStream("in.html", FileMode.Open));

d.InputCharacterEncoding = EncodingType.Utf8;
d.OutputCharacterEncoding = EncodingType.Win1252;
d.CleanAndRepair();

d.Save("out.html");

При правильном кодировании вы получите правильный результат без ü и т. П.

...