Борьба с отображением арабских твитов в питоне - PullRequest
1 голос
/ 04 ноября 2019

Я использую Tweepy в Python (2.7), и мне удалось вывести поток твитов, смешанных как арабский (ar) и английский (en). Твитам, написанным на Egnlish, предшествует «en», и они правильно читаются. Тем не менее, те, которые написаны на арабском языке, которому предшествует «ар», нет.

Я хотел бы отображать арабские твиты в удобочитаемой форме.

Ваша помощь приветствуется:)

alltweets = []  
new_tweets = api.user_timeline(screen_name = 'SudanPMHamdok', count=200)
alltweets.extend(new_tweets)
oldest = alltweets[-1].id - 1
while len(new_tweets) > 0:
    new_tweets = api.user_timeline(screen_name = screen_name,count=200,max_id=oldest)
    alltweets.extend(new_tweets)
    oldest = alltweets[-1].id - 1
    print "...%s tweets downloaded so far" % (len(alltweets))
outtweets = [[tweet.id_str, tweet.created_at, tweet.text.encode("utf-8")] for tweet in alltweets]   

for t in outtweets:
     ...:     print t[0].encode("utf-8") ,",", t[3].encode("utf-8")
     ...:     print "_______________________"

enter image description here

Ответы [ 2 ]

0 голосов
/ 04 ноября 2019

Чтобы сделать себя совместимым с python3 и поместить это в начало вашего файла

from __future__ import unicode_literals
0 голосов
/ 04 ноября 2019

Чтобы преобразовать эти символы во что-то более полезное, вам придется использовать encode и decode для правильной обработки строк Юникода.

...