Я использую HTML Tidy Online (http://infohound.net/tidy/), чтобы привести в порядок какой-то очень старый и испорченный HTML-файл, содержащий некоторые ивритские символы. Всякий раз, когда страница обрабатывается Tidy, вывод превращает ивритские символы в бред, даже после изменения методов кодирования в настройках. Используя разные настройки, мне удается получить тот же вывод с символами иврита, что и объекты юникода.
Я гуглил вокруг возможное решение, но не нашел ничего.
Я имел в виду пару идей, но я не уверен, как именно к ним подойти, если вообще (возможно, у кого-то есть лучшее решение).
- Я подумал, что, возможно, смогу (после обработки страницы) отсканировать страницу в поисках юникодных объектов и заменить их соответствующими ивритскими символами (систематически, конечно).
- Может быть, я мог бы взять исходный код HTML Tidy и изменить его для правильного вывода символов иврита. Проблема в том, что я сомневаюсь, что я достаточно осведомлен, чтобы даже начать что-то подобное.