Возможно, это не вопрос, связанный с Python, но он относится к языковой кодировке в целом. Я занимаюсь майнингом твитов из Твиттера, и похоже, что существует большое японское сообщество пользователей (с сообщениями на японском языке). Когда я пытался кодировать твиты для файла XML, я использовал utf-8. например, tweet = tweet.encode ('utf-8') и ни один из японских твитов не появился так, как должен был. Мой вопрос, который я задаю, как мне их кодировать? В чем была моя ошибка? Если бы я должен был хранить данные в CSV, какую схему кодирования я бы использовал в этом случае?