Question

Возможно, это не вопрос, связанный с Python, но он относится к языковой кодировке в целом. Я занимаюсь майнингом твитов из Твиттера, и похоже, что существует большое японское сообщество пользователей (с сообщениями на японском языке). Когда я пытался кодировать твиты для файла XML, я использовал utf-8. например, tweet = tweet.encode ('utf-8') и ни один из японских твитов не появился так, как должен был. Мой вопрос, который я задаю, как мне их кодировать? В чем была моя ошибка? Если бы я должен был хранить данные в CSV, какую схему кодирования я бы использовал в этом случае?

Ignacio Vazquez-Abrams · Answer 1 · 16 февраля 2010

Обычно вы запрашиваете формат, в котором содержится кодировка данных. Сказав это, Shift-JIS является довольно популярной кодировкой для японского текста.

>>> u'あいうえお'.encode('shift-jis')
'\x82\xa0\x82\xa2\x82\xa4\x82\xa6\x82\xa8'

Mark Tolonen · Answer 2 · 16 февраля 2010

Должен быть способ запрашивать кодировку твитов при чтении из Twitter. Затем вы декодируете их в Unicode, когда читаете их в свою программу, затем кодируете их, когда вы записываете их обратно в файл XML. Например, для китайского языка может использоваться кодировка gbk :

import codecs
unicode_data = data.decode('gbk')
f = codecs.open('out.xml','w','utf-8')
f.write(unicode_data)
f.close()

Кодировать восточноазиатские языки, используя Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Кодировать восточноазиатские языки, используя Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов