Кодировать восточноазиатские языки, используя Python - PullRequest
1 голос
/ 16 февраля 2010

Возможно, это не вопрос, связанный с Python, но он относится к языковой кодировке в целом. Я занимаюсь майнингом твитов из Твиттера, и похоже, что существует большое японское сообщество пользователей (с сообщениями на японском языке). Когда я пытался кодировать твиты для файла XML, я использовал utf-8. например, tweet = tweet.encode ('utf-8') и ни один из японских твитов не появился так, как должен был. Мой вопрос, который я задаю, как мне их кодировать? В чем была моя ошибка? Если бы я должен был хранить данные в CSV, какую схему кодирования я бы использовал в этом случае?

Ответы [ 2 ]

3 голосов
/ 16 февраля 2010

Обычно вы запрашиваете формат, в котором содержится кодировка данных. Сказав это, Shift-JIS является довольно популярной кодировкой для японского текста.

>>> u'あいうえお'.encode('shift-jis')
'\x82\xa0\x82\xa2\x82\xa4\x82\xa6\x82\xa8'
2 голосов
/ 16 февраля 2010

Должен быть способ запрашивать кодировку твитов при чтении из Twitter. Затем вы декодируете их в Unicode, когда читаете их в свою программу, затем кодируете их, когда вы записываете их обратно в файл XML. Например, для китайского языка может использоваться кодировка gbk :

import codecs
unicode_data = data.decode('gbk')
f = codecs.open('out.xml','w','utf-8')
f.write(unicode_data)
f.close()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...