Diff на XML с Unicode, используя Python - PullRequest
2 голосов
/ 12 апреля 2011

Я пытаюсь создать веб-инструмент, который может визуализировать различия между двумя XML-файлами. difflib довольно хорошо работал над созданием html с учетом различий, но затем в XML появился некоторый текст в кодировке Unicode, и в результате html теперь содержит буквы в кодировке html.

Есть ли другой подход к этой проблеме?

1 Ответ

1 голос
/ 29 октября 2012

Я предполагаю, что вас беспокоит «html символ сущностей», а не их числовые аналоги.Вы можете переназначить их, например, с помощью вашего любимого инструмента cli, поддерживающего регулярные выражения (например, sed) и таблиц из unicode e-worker или reference .кодировка числовой сущности может использоваться как в html, так и в xml файлах.

С наилучшими пожеланиями, Carsten

...