отслеживание данных в твиттере с использованием твипи, дающего случайные результаты - PullRequest
0 голосов
/ 27 октября 2018

В настоящее время я использую пример с этого сайта (https://chrisalbon.com/python/other/mine_a_twitter_hashtags_and_words/) для извлечения данных из твиттера на основе ключевых слов и сохранения их в CSV-файле.

Пример работает нормально, в моем случае я пытаюсь сохранить данные на основе более длинного списка слов, связанных с кибератаками, показанного ниже. При этом я не получаю никакой ошибки, но данные, которые в итоге сохраняются в CSV-файле, похоже, представляют собой просто все, что публикуется в твиттере, а не только данные, которые содержат слова в списке.

Я старался сделать список длиннее и короче, иногда он работал, а иногда нет. Я не понимаю, почему он должен давать этот тип случайного вывода. Документы, которые я нашел (https://developer.twitter.com/en/docs/tweets/filter-realtime/guides/basic-stream-parameters) для параметра дорожки, говорят, что ему просто нужен разделенный запятыми список фраз, которые я даю, но он все еще, кажется, хранит любые данные, которые не содержат термин в списке. что-то мне не хватает?

security_words = ["ddos","phishing",'dos',"phishing","botnet","dos",'xss','smb','wannacry','heartbleed','ransomware','trojan','spyware','exploit','virus','malware','mitm','brute force','petya','mirai','stuxnet','eternalblue','injection attack', 'petya', 'infosec']
...