Tweepy: настройка JSON выход - PullRequest
       10

Tweepy: настройка JSON выход

0 голосов
/ 22 января 2020

Я использую этот код для извлечения твитов с помощью API поиска. До сих пор мне удалось извлечь только целые JSON с помощью jsonpickle. Однако я хотел бы извлечь только указанную c информацию из JSON, такую ​​как tweet.id, tweet.full_text или tweet.favorite_count, и сохранить ее в файле CSV. Кто-нибудь знает, как я мог бы изменить код для этой цели, не меняя структуру max_id / since_id?

import sys
import jsonpickle
import os
import tweepy

consumer_key = "XXXXXXXXXXXXX"
consumer_secret = "XXXXXXXXXXX"
auth = tweepy.AppAuthHandler(consumer_key, consumer_secret)

api = tweepy.API(auth, wait_on_rate_limit=True,
                   wait_on_rate_limit_notify=True)

if (not api):
    print ("Can't Authenticate")
    sys.exit(-1)

searchQuery = 'XXXX' 
maxTweets = XXX # number of tweets one wants to extract
tweetsPerQry = 100  # the max tweets the API permits per query
fName = 'tweets_keyword' # storing the tweets in a text file
sinceId = None
tweets = []

max_id = -1
tweetCount=0
print("Downloading max {0} tweets".format(maxTweets))
with open(fName+".csv", 'w') as file:
    while tweetCount < maxTweets:
        try:
            if (max_id <= 0):
                if (not sinceId):
                    new_tweets = api.search(q=searchQuery, count=tweetsPerQry, lang = 'en', tweet_mode = 'extended')
                else:
                    new_tweets = api.search(q=searchQuery, count=tweetsPerQry, lang = 'en',tweet_mode = 'extended',
                                            since_id=sinceId)
            else:
                if (not sinceId):
                    new_tweets = api.search(q=searchQuery, count=tweetsPerQry,lang = 'en', tweet_mode = 'extended',
                                            max_id=str(max_id - 1))
                else:
                    new_tweets = api.search(q=searchQuery, count=tweetsPerQry,lang = 'en',tweet_mode = 'extended',
                                            max_id=str(max_id - 1),
                                            since_id=sinceId)
            if not new_tweets:
                print("No more tweets found")
                break
            for tweet in new_tweets:
                file.write(jsonpickle.encode(tweet._json, unpicklable=False) +
                        '\n')
            tweetCount += len(new_tweets)
            print("Downloaded {0} tweets".format(tweetCount))
            max_id = new_tweets[-1].id
        except tweepy.TweepError as e:
            # Just exit if any error
            print("some error : " + str(e))
            break

print ("Downloaded {0} tweets, Saved to {1}".format(tweetCount, fName))

1 Ответ

0 голосов
/ 22 января 2020

Объект Status / Tweet сам имеет атрибуты для рассматриваемой информации.
Вы можете просто использовать их вместо необработанных JSON.

Необработанных JSON представлен в виде словаря, как стандарт, поэтому вы также можете просто получить к нему доступ по ключу, как и в любом другом словаре.

Кроме того, ни в коем случае API никогда не будет ложным.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...