Это мой python код для извлечения данных из твиттера. но когда я пытаюсь сохранить данные в gann ie .txt, я сталкиваюсь со следующей ошибкой.
File "D:\software\Anaconda\lib\encodings\cp1252.py", line 19, in encode
return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode characters in position 5-6: character maps to <undefined>
Любая помощь по этому поводу, я новичок в этом интеллектуальном анализе текста, и я пытаюсь построить проект анализа настроений с использованием обработки естественного языка
вот мой код:
outF = open("gannie.txt", "a")
for tweet in tweets:
#print(tweet.text)
Tweet = tweet.text
#Convert www.* or https?://* to URL
Tweet = re.sub('((www\.[\s]+)|(https?://[^\s]+))','URL',Tweet)
Tweet = re.sub('@[^\s]+','TWITTER_USER',Tweet)
#Remove additional white spaces
Tweet = re.sub('[\s]+', ' ', Tweet)
#Replace #word with word Handling hashtags
Tweet = re.sub(r'#([^\s]+)', r'\1', Tweet)
#trim
Tweet = Tweet.strip('\'"')
#Deleting happy and sad face emoticon from the tweet
a = ':)'
b = ':('
Tweet = Tweet.replace(a,'')
Tweet = Tweet.replace(b,'')
#Deleting the Twitter @username tag and reTweets
tag = 'TWITTER_USER'
rt = 'RT'
url = 'URL'
Tweet = Tweet.replace(tag,'')
tweetCount+=1
if rt in Tweet:
continue
Tweet = Tweet.replace(url,'')
print(Tweet)
outF.write(Tweet)
outF.write("\n")
outF.close()