Как отображать символы не ASCII из вывода XML - PullRequest
0 голосов
/ 05 сентября 2011

Я получаю этот вывод в элементе XML:

£111.00

Это должно быть £111.00.

Как мне разобраться, чтобы отображались все символы Юникода, а не код. Я использую инструмент Linux Wget для получения XML-файла из Интернета. Возможно, какой-то конвертер?

Я просматриваю файл в замазке, анализирую файл и хочу очистить ввод перед анализом.

Я использую xml_grep2, чтобы получить нужные элементы, а затем cat filename | пока читаешь .....

Ответы [ 2 ]

0 голосов
/ 06 сентября 2011

Хорошо, я собираюсь закрыть этот вопрос сейчас.

После анализа файла с помощью xml_grep2 я смог получить чистый вывод, однако увидел этот символ Ã в файле.Я изменил настройки замазки для набора символов на UTF-8 с ISO-8859, чтобы решить эту проблему.

0 голосов
/ 05 сентября 2011

Вы можете использовать HTML :: Entities для замены сущностей буквенными кодами символов.Я не знаю, насколько хорошо это освещение, хотя.Должны быть аналогичные инструменты для других языков, если вы не знакомы с Perl.http://metacpan.org/pod/HTML::Entities

sh$ echo '£111.00' | perl -CSD -MHTML::Entities -pe 'decode_entities($_)'
£111.00    

Это не будет работать, если модуль HTML :: Entities не установлен.Если вам нужно установить его, в Интернете есть множество учебных пособий по CPAN.

Редактировать : Добавить пример использования.Опция -CSD может не понадобиться в вашей системе, но, по крайней мере, в OSX я получил вывод мусора без нее.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...