Еврейские символы, обработанные HTML Tidy, превращаются в бред - PullRequest
4 голосов
/ 28 июля 2011

Я использую HTML Tidy Online (http://infohound.net/tidy/), чтобы привести в порядок какой-то очень старый и испорченный HTML-файл, содержащий некоторые ивритские символы. Всякий раз, когда страница обрабатывается Tidy, вывод превращает ивритские символы в бред, даже после изменения методов кодирования в настройках. Используя разные настройки, мне удается получить тот же вывод с символами иврита, что и объекты юникода. Я гуглил вокруг возможное решение, но не нашел ничего. Я имел в виду пару идей, но я не уверен, как именно к ним подойти, если вообще (возможно, у кого-то есть лучшее решение).

  1. Я подумал, что, возможно, смогу (после обработки страницы) отсканировать страницу в поисках юникодных объектов и заменить их соответствующими ивритскими символами (систематически, конечно).
  2. Может быть, я мог бы взять исходный код HTML Tidy и изменить его для правильного вывода символов иврита. Проблема в том, что я сомневаюсь, что я достаточно осведомлен, чтобы даже начать что-то подобное.

Ответы [ 2 ]

2 голосов
/ 30 марта 2012

У меня была похожая проблема. Документ в формате UTF-8, содержащий символы Юникода. HTML Tidy превратил их в объекты HTML. Это в HTMLTIDY.CFG исправило это:

char-encoding: utf8
input-encoding: utf8
output-encoding: utf8

Надеюсь, это поможет.

0 голосов
/ 29 октября 2013

Веб-сайт http://infohound.net/tidy/, который вы используете, имеет пункт «Кодировка символов» в правом нижнем углу. Вам нужно выбрать utf-8, но сначала вам нужно убедиться, что страница закодирована в UTF-8 в вашем редакторе тестов. Например, в Notepad ++ вы можете перейти на Encoding > Convert to UTF-8 without BOM.

...