Получение как можно большего количества твитов, связанных с тенденциями дня - PullRequest
0 голосов
/ 27 марта 2012

Я храню в базе данных каждые 30 минут актуальные темы Твиттера страны Y. С этим проблем нет. Теперь я хочу получить как можно больше твитов, соответствующих этим актуальным темам в исследовательских целях.

Поскольку я хотел бы изучать закономерности трендов, мне бы хотелось, чтобы непрерывные данные твитов продолжались не менее 3 дней с центром в день обнаружения пика тренда для каждой темы трендов. Чтобы достичь этого, я подумал сделать следующее:

Предположим, я нахожусь в день X. Я мог бы извлечь уникальные тренды дня X-2, и для каждого тренда искать твиты, соответствующие тренду в интервале [X-3, X-1], то есть 3 дня. , Однако проблема здесь заключается в ограничении скорости Twitter. Если в день X-2 у меня будет 100 трендовых тем и я сделаю 20 поисковых запросов / тенденций GET, я в итоге выполню 2 000 запросов, что превышает 350-часовой лимит Twitter. Если сделать 300 req / hour, для получения данных за один день потребуется более 6 часов ...

Кто-нибудь знает какой-либо другой (лучший) способ получения твитов, связанных с тенденциями?

Заранее спасибо

1 Ответ

1 голос
/ 28 марта 2012

Twitter Streaming API?

Twitter Streaming API не доставляет прошлые твиты.Вы получаете твиты только с момента установления соединения с сервером.Поисковый API будет возвращать твиты, соответствующие текущему запросу, до 7 дней в теории, но это полностью зависит от текущей загрузки Twitter.(Примечание * - Временами этот интервал составлял всего 24 часа. Кроме того, вы ограничены возможностью получать до 1500 твитов независимо от того, сколько им лет.)

есть ли способ получить больше твитов от потоковой передачи?

Ни один из тех, что я знаю.Но обращайтесь к нижеприведенной информации, если вы планируете переключаться между поисковым или потоковым API.

Пожалуйста, выберите ваш случай:

  • Если вам нужны данные в режиме реального времени и количество запросов велико:

Перейти к потоковому API

Для потокового API необходимо, чтобы соединение оставалось активным.Это требует серверный процесс с бесконечным циклом, чтобы получить последние твиты.

Преимущество

1) Задержка в получении результатов: твиты, доставляемые с помощью этого метода, в основном в режиме реального времени, с задержкойне более секунды или двух между временем публикации твита и его получения от API

2) Не ограничено скоростью.

  • Если вам нужны агрегированные данные независимо от ихдиапазон времени и количество запросов невелики:

Go for Search API

API поиска проще реализовать из двух методов, но онограничено по скорости. Каждый запрос вернет до 100 твитов, и вы можете использовать параметр страницы для запроса до 15 страниц, что дает вам теоретический максимум 1500 твитов для одного запроса.

Преимущество

1) Поиск твитов в прошлом: API поиска по умолчанию побеждает в этой области, потому что потоковый API не доставляет прошлых твитов

2) Легче реализовать

...