Question

У меня есть запрос на извлечение / скручивание, чтобы получить html с другого сайта, на котором есть китайский язык, но какой-то текстовый результат выглядит странно, он выглядит так:

° ¢ Àï ° Í ° ÍÎªÄúÌá¹ © ÁË× ÕÁµÕß¹¤³§Ö ± ÏúÆ · ÆÆµç × Ó ± í ÖÇÄÜÊ ± ÉÐ³ ± Á ÷ Å®Ê¿ÊÖ »· ÊÖÁ´Ê × ÊÎ ± í´øµÈ²úÆ · £ ¬ÕâÀïÔÆ¼¯ÁËÖÚ¶àµÄ¹ © Ó¦ÉÌ £¬¹ ¹ ¹ Ì Ì ÆÔ ÆÔ Ì Ë Ë ¸ Ë Ë Ë Ë Ë Ë Ë ø ø ø ø ø ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ Ï Ï Ï·Ë · ÎÊÎÊ ° ¢ Àï ° ú ° ÍÅú · ¢ Íø £ ¡

, которое должно быть на китайском языке, и это мой код:

str(result.decode('ISO-8859-1'))

Если без декодирования 'ISO-8859-1 '(только возврат результат переменная) будет отображаться вопросительный знак следующим образом:

��Ͱ�Ϊ��ṩ��߹�� ֱ�� Ʒ�Ƶ��ӱ� ��ʱ�г��Ůʿ� ֻ�� α��Ȳ�Ʒ�Ƽ ڶ ĹӦ̣ɹ̡̣˽ ߹ ֱֻ�� ʱ�г��Ůʿ� ֻ�� α��Ϣ��ʰ��Ͱ��101

Не могли бы вы помочь мне, какой кодировку / декодирование я должен использовать?

Спасибо

Usman · Answer 1 · 28 декабря 2018

Попробуйте этот блок кода.

Это можно сделать, импортировав файл unquote и кодировав содержимое, используя механизм кодирования latin1.

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from urllib2 import unquote

bytesquoted = u'å%8f°å%8d%97 è¦ªå%90é¤%90å»³'.encode('latin1')
unquoted = unquote(bytesquoted)
print unquoted.decode('utf8')

Вывод:

台南親子餐廳

Muhamad Yulianto · Answer 2 · 28 декабря 2018

Это было действительно простое решение, как упомянул @Thu Yein tun, чтобы увидеть ответ заголовка ссылки http-запроса для типа контента, и я показал его как text / html; charset = GBK, тогда я даю решениена мой код, как это

result.decode('gbk')

Code Rage · Answer 3 · 28 декабря 2018

В китайском есть несколько возможных кодировок.
3 общих китайских кодировок: gb2312, big5 и gbk.
Вот фрагмент кода для преобразования из gb2312 в utf-8.

import codecs

infile = codecs.open("in.txt", "r", "gb2312")
lines = infile.readline()
infile.close()

print(lines)

outfile = codecs.open("out.txt", "wb", "utf-8")
outfile.writelines(lines)
outfile.close()

кодировка python китайский специальный символ

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

кодировка python китайский специальный символ

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы