import tweepy
from tweepy import OAuthHandler
from tweepy import Stream
from tweepy.streaming import StreamListener
consumer_key = ##
consumer_secret = ##
access_token = ##
access_secret = ##
print('Hey! Welcome to my twitter data scraper!')
variant = str(input("Please enter a hashtag you would like me to scrape: "))
print('Collecting Data...')
class LiveTweets(StreamListener):
def on_data(self, data):
with open(variant+'.json', 'a') as f:
f.write(data)
return True
def on_error(self, status):
print(status)
return True
if __name__ == "__main__":
liveTweets = LiveTweets()
auth = OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_secret)
stream = Stream(auth, liveTweets)
stream.filter(track=[variant])
У меня есть файл JSON, открытый в Excel, и я собрал около 12 тысяч твитов.Они находятся в столбце «текст», но я не знаю, как отфильтровать его по тексту.Твиты также содержат много странных символов и не похожи на обычную строку.Я не знаю, как отсортировать эти данные в строковом формате.