Запись Python в файл - с английского на китайский - PullRequest
0 голосов
/ 21 марта 2019

Я открываю файл в python.

Я читаю и обрабатываю его (разделяю на отдельные слова).

Я записываю его в выходной файл.

На рисунке ниже показан мой код, оболочка (где я распечатываю каждое слово перед добавлением его в файл) и вывод.

Почему оно становится китайскими иероглифами?Кодировка файла - ANSI.

Редактировать: я должен добавить, что выходной файл, кажется, закодирован с UCS-2 LE BOM.

Picture of code, shell, and output

import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.tokenize import sent_tokenize, word_tokenize


with open('ALLSentences.txt', 'r') as myfile:
    text = myfile.read()

tokenized = word_tokenize(text)

file = open("output.txt", "a")
for word in tokenized:
    print(word)
    file.write(word + "\n")

file.close()
...