Как распечатать поток данных Twitter в файл, когда я пытаюсь, я получаю ошибку Unicode - PullRequest
0 голосов
/ 19 января 2020

Это мой python код для извлечения данных из твиттера. но когда я пытаюсь сохранить данные в gann ie .txt, я сталкиваюсь со следующей ошибкой.

File "D:\software\Anaconda\lib\encodings\cp1252.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode characters in position 5-6: character maps to <undefined>

Любая помощь по этому поводу, я новичок в этом интеллектуальном анализе текста, и я пытаюсь построить проект анализа настроений с использованием обработки естественного языка

вот мой код:

outF = open("gannie.txt", "a")
for tweet in tweets:
    #print(tweet.text)
    Tweet = tweet.text
                #Convert www.* or https?://* to URL
    Tweet = re.sub('((www\.[\s]+)|(https?://[^\s]+))','URL',Tweet)


    Tweet = re.sub('@[^\s]+','TWITTER_USER',Tweet)

                #Remove additional white spaces
    Tweet = re.sub('[\s]+', ' ', Tweet)

                #Replace #word with word Handling hashtags
    Tweet = re.sub(r'#([^\s]+)', r'\1', Tweet)

                #trim
    Tweet = Tweet.strip('\'"')

                #Deleting happy and sad face emoticon from the tweet 
    a = ':)'
    b = ':('
    Tweet = Tweet.replace(a,'')
    Tweet = Tweet.replace(b,'')

                #Deleting the Twitter @username tag and reTweets
    tag = 'TWITTER_USER' 
    rt = 'RT'
    url = 'URL'
    Tweet = Tweet.replace(tag,'')
    tweetCount+=1
    if rt in Tweet:
        continue
    Tweet = Tweet.replace(url,'')
    print(Tweet)
    outF.write(Tweet)
    outF.write("\n")
outF.close()

1 Ответ

0 голосов
/ 20 января 2020

Я получил ответ, просто добавив кодировку = "utf-8", чтобы открыть строку файла

До: outF = open("gannie.txt", "a")

После: outF = open("gannie.txt", "a",encoding="utf-8")

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...