Получение местоположения твитов в Twitter API и группировка по штату - PullRequest
0 голосов
/ 01 марта 2019

Я пытаюсь найти в твиттере API твиты с заданным текстом.Я хотел бы только делать твиты в Соединенных Штатах (думаю, что bio_location не геокод, так как большинство не будет иметь геокод).Я действительно борюсь за то, как сделать это с помощью пакетов Tweepy и Twitter.

place = api.geo_search(query="USA", granularity="country")
place_id = place[0].id


for tweet in tweepy.Cursor(api.search,q= "place:%s" % place_id, count=100,
                           text = "SOME TEXT",
                           lang="en",
                           since="2018-2-21").items():
    print (tweet.created_at, tweet.text, tweet.coordinates)
    csvWriter.writerow([tweet.created_at, tweet.text.encode('utf-8'), tweet.place])

Я ожидаю, что мой результат будет примерно таким:

местоположение даты твита

некоторый твит 2-23-2019 Алабама

Как мне это сделать?Нужно ли иметь список широт / долг / радиус для каждого штата?Конечно, кто-то делал это раньше?

1 Ответ

0 голосов
/ 28 марта 2019

Вот код, который я использовал для решения этой проблемы в одном из моих проектов.Это пытается найти данные о месте в нескольких разных местах внутри метаданных твита и возвращает None, если не может.

states = {
            'AL': 'Alabama',
            'AK': 'Alaska',
            'AZ': 'Arizona',
            'AR': 'Arkansas',
            'CA': 'California',
            'CO': 'Colorado',
            'CT': 'Connecticut',
            'DE': 'Delaware',
            'DC': 'District of Columbia',
            'FL': 'Florida',
            'GA': 'Georgia',
            'HI': 'Hawaii',
            'ID': 'Idaho',
            'IL': 'Illinois',
            'IN': 'Indiana',
            'IA': 'Iowa',
            'KS': 'Kansas',
            'KY': 'Kentucky',
            'LA': 'Louisiana',
            'ME': 'Maine',
            'MD': 'Maryland',
            'MA': 'Massachusetts',
            'MI': 'Michigan',
            'MN': 'Minnesota',
            'MS': 'Mississippi',
            'MO': 'Missouri',
            'MT': 'Montana',
            'NE': 'Nebraska',
            'NV': 'Nevada',
            'NH': 'New Hampshire',
            'NJ': 'New Jersey',
            'NM': 'New Mexico',
            'NY': 'New York',
            'NC': 'North Carolina',
            'ND': 'North Dakota',
            'OH': 'Ohio',
            'OK': 'Oklahoma',
            'OR': 'Oregon',
            'PA': 'Pennsylvania',
            'RI': 'Rhode Island',
            'SC': 'South Carolina',
            'SD': 'South Dakota',
            'TN': 'Tennessee',
            'TX': 'Texas',
            'UT': 'Utah',
            'VT': 'Vermont',
            'VA': 'Virginia',
            'WA': 'Washington',
            'WV': 'West Virginia',
            'WI': 'Wisconsin',
            'WY': 'Wyoming'
         }

def extract_place(status):
    if type(status) is tweepy.models.Status:
        status = status.__dict__
    #Try to get the place from the place data inside the status dict
    if status['place'] is not None:
        place = status['place']
        if place['country'] != 'United States':
            return place['country']
        elif place['place_type'] == 'admin':
            return place['name']
        elif place['place_type'] == 'city':
            return states.get(place['full_name'].split(', ')[-1])
    #If the status dict has no place info, get the place from the user data
    else:
        place = status['user']['location']
        try:
            place = place.split(', ')[-1].upper()
        except AttributeError:
            return None
        if place in states:
            return states[place]
        else:
            return place
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...