Этот текст не является UTF8 или Unicode в целом. Это HTML-кодированный текст , скорее всего, вьетнамский. Эти escape-последовательности соответствуют вьетнамским символам, например ư
is ư - на самом деле, я просто набрал последовательность редактирования в поле редактирования SO, и появился правильный символ. ớ
- это ớ.
Копирование всего текста вне блока кода приводит к
6814; gymnocéphale; 185; 151; 49
6815; gymnodonte; 83; 330; 0
6816; gymnosome; 287; 105; 42
6817; га; 69; 305; 0
6818; hải â; 81; 294; 0
6819; hẩi cẩu; 64; 338; 0
6820; hải yến; 62; 269; 0
* * 6848 тысяча двадцать-дв; histiophore; 57; 262; 0 * * тысяча двадцать три
6849; hiverneur; 56; 248; 0 * * тысяча двадцать пять
6850; ч & # 7893mang; 54; 298; 0 * * тысяча двадцать-семь
* 1 028 * 6851; holobranche; 97; 329; 0
6852; hoplopode; 65; 296; 0
6853; ч & # 432 & # 417u cao cổ152; 298; 0
6854; huy & # 7873n đề62; 324; 0
6855; hyalosome; 73; 371; 0 * +1037 *
6883; jumarre; 83; 295; 0
6884; КЭК; 86; 326; 0
6885; kền kền; 73; 303; 0
* * 6886 тысячи сорок четыре; Хоанг; 64; 323; 0
6887; khướu; 62; 325; 0
Поиск в Google для Họ Khướu возвращает эта страница в Википедии о Họ Khướu .
Я думаю, можно предположить, что это вьетнамский текст в кодировке HTML. Чтобы преобразовать его в Unicode, вы можете использовать html.unescape :
import html
line='6887;khướu;62;325;0'
properLine=html.unescape(line)
UPDATE
Приведенный выше текст - это просто оригинальный текст с дополнительной новой строкой на странице. Это средство рендеринга уценки SO, которое преобразует escape-последовательности в соответствующие глифы.
Самое смешное, что эта строка:
6853;hươu cao cổ152;298;0
Не может быть отображено, потому что объекты HTML не завершены должным образом. html.unescape
с другой стороны будет преобразовывать символы. Ясно, что html.unescape
гораздо более простителен, чем средство визуализации уценки SO.
Любая из этих строк:
html.unescape('6853;hươu cao cổ152;298;0')
html.unescape('6853;hươu cao cổ152;298;0')
Возвращает:
6853;h\u01b0\u01a1u cao c\u1ed5152;298;0