Как наскрести огромное количество твитов - PullRequest
4 голосов
/ 25 сентября 2011

Я строю проект на python, который должен очищать огромные и большие объемы данных Twitter.Примерно 1 миллион пользователей и все их твиты должны быть удалены.

Ранее я использовал Tweepy и Twython, но очень быстро достиг предела Twitter.

Как компании по анализу настроений и т. Д. Получают свои данные?Как они получают все эти твиты?Вы покупаете это где-нибудь или создаете что-то, что проходит через разные прокси или что-то в этом роде?

Как такие компании, как Infochimps, например с Trst, получают все свои данные?* http://www.infochimps.com/datasets/twitter-census-trst-rank

Ответы [ 2 ]

7 голосов
/ 26 сентября 2011

Если вам нужны последние твиты от определенных пользователей, Twitter предлагает Streaming API .

Streaming API - это образец Firehose в реальном времени. Этот API предназначен для разработчиков, которым требуется интенсивное использование данных. Если вы хотите создать продукт для интеллектуального анализа данных или заинтересованы в аналитическом исследовании , потоковый API лучше всего подходит для таких вещей.

Если вы пытаетесь получить доступ к старой информации, REST API с его жесткими ограничениями запросов - единственный путь.

7 голосов
/ 25 сентября 2011

Я не знаю, сработает ли это для того, что вы пытаетесь сделать, но набор данных Tweets2011 был недавно выпущен.

Из описания:

Как часть трека микроблога TREC 2011, Twitter предоставил идентификаторы примерно за 16 миллионов твитов, выбранных в период с 23 января по 8 февраля 2011 года. Корпус предназначен для многократного использования, репрезентативная выборка twittersphere - то есть как важные, так и спам-твиты включены.

...