Как я могу транскодировать американский ASCII HTML, например, в UTF-8 в Linux? - PullRequest
0 голосов
/ 10 октября 2019

Какой быстрый веб-поиск подтвердит, что US ASCII является подмножеством UTF-8, но я пока не нашел, как конвертировать & foo;и {к соответствующим им родным символам UTF-8.

Я знаю, что по крайней мере 7-битный US ASCII в UTF-8 не изменился, но я еще не видел программу для фильтрации и преобразования & foo;как это было бы естественно выражено в UTF-8.

1 Ответ

1 голос
/ 10 октября 2019

Вы можете использовать html_entity_decode(s, "UTF-8") в PHP или html.unescape(s) в Python.

  1. https://www.php.net/manual/en/function.html-entity-decode.php
  2. https://docs.python.org/3/library/html.html#html.unescape
...