Фильтрация твитов по новостным каналам - PullRequest
0 голосов
/ 25 апреля 2020

Я собираю твиты о COVID19, используя твипи. Я собираюсь sh собирать только те твиты, сделанные простыми людьми, а не новостные каналы. Какой самый простой способ отфильтровать их?

def search_for_hashtags(consumer_key, consumer_secret, access_token, access_token_secret, hashtag_phrase):

#create authentication for accessing Twitter
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)

#initialize Tweepy API
api = tweepy.API(auth)

#get the name of the spreadsheet we will write to
fname = '_'.join(re.findall(r"(\w+)", hashtag_phrase))

#open the spreadsheet we will write to
with open('%s.csv' % (fname), 'w', encoding="utf-8") as file:

    w = csv.writer(file)

    #write header row to spreadsheet
    w.writerow(['timestamp', 'tweet_text', 'username', 'all_hashtags', 'followers_count'])

    #for each tweet matching our hashtags, write relevant info to the spreadsheet
    for tweet in tweepy.Cursor(api.search, q=hashtag_phrase+' -filter:retweets', \
                               lang="en", tweet_mode='extended').items(100):
        w.writerow([tweet.created_at, tweet.full_text.replace('\n',' ').encode('utf-8'), tweet.user.screen_name.encode('utf-8'), [e['text'] for e in tweet._json['entities']['hashtags']], tweet.user.followers_count])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...