Как сортировать данные из Tweepy только по твитам? - PullRequest
0 голосов
/ 28 февраля 2019
import tweepy
from tweepy import OAuthHandler
from tweepy import Stream
from tweepy.streaming import StreamListener



consumer_key = ##
consumer_secret = ##
access_token = ##
access_secret = ##


print('Hey! Welcome to my twitter data scraper!')
variant = str(input("Please enter a hashtag you would like me to scrape: "))
print('Collecting Data...')
class LiveTweets(StreamListener):

def on_data(self, data):
    with open(variant+'.json', 'a') as f:
        f.write(data)
        return True

def on_error(self, status):
        print(status)
        return True

if __name__ == "__main__":

liveTweets = LiveTweets()
auth = OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_secret)

stream = Stream(auth, liveTweets)

stream.filter(track=[variant])

У меня есть файл JSON, открытый в Excel, и я собрал около 12 тысяч твитов.Они находятся в столбце «текст», но я не знаю, как отфильтровать его по тексту.Твиты также содержат много странных символов и не похожи на обычную строку.Я не знаю, как отсортировать эти данные в строковом формате.

...