Я открываю файл в python.
Я читаю и обрабатываю его (разделяю на отдельные слова).
Я записываю его в выходной файл.
На рисунке ниже показан мой код, оболочка (где я распечатываю каждое слово перед добавлением его в файл) и вывод.
Почему оно становится китайскими иероглифами?Кодировка файла - ANSI.
Редактировать: я должен добавить, что выходной файл, кажется, закодирован с UCS-2 LE BOM.
![Picture of code, shell, and output](https://i.stack.imgur.com/okWSj.png)
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.tokenize import sent_tokenize, word_tokenize
with open('ALLSentences.txt', 'r') as myfile:
text = myfile.read()
tokenized = word_tokenize(text)
file = open("output.txt", "a")
for word in tokenized:
print(word)
file.write(word + "\n")
file.close()