Найти кодировку символа с использованием двоичной последовательности - PullRequest
0 голосов
/ 24 октября 2018

Я обнаружил в XML следующий текст:

<name>21&#x19;&amp;ª</name>

Возникла проблема с кодировкой, которая привела к тому, что текст 21" стал этими символами.Обратите внимание, что я набрал здесь двойную кавычку, используя клавиатуру, но на самом деле это, вероятно, одно из тех двойных кавычек, которые автоматически заменяются словом Microsoft.Я разбил эти странные символы на следующие байты, используя UTF-8, потому что это то, что делает библиотека Xstream моего Java-кода:

  • &#x19; = 00011001
  • &amp;= 00100110
  • ª = &ordf; = 11000010 10101010

Итак, в итоге странный символ двойной кавычки как-то привел к получению следующих байтов:

00011001 00100110 11000010 10101010

Использование всехэто знание, я хотел бы знать, чтобы найти кодировку и исходный символ, который был дан в качестве входных данных для нашей системы.Другими словами, какой символ не-utf8 привел к этой последовательности байтов?В какой кодировке мне нужно преобразовать эти байты обратно в исходный символ?Я попробовал некоторые онлайн-конвертеры, но все они предполагают ascci или UTf-8 и не позволяют мне устанавливать разные кодировки для меня.

...