Какой API Twitter я должен использовать для извлечения большого количества твитов для исследования НЛП? - PullRequest
3 голосов
/ 27 марта 2012

Я бы хотел извлечь как можно больше твитов, содержащих данное ключевое слово (обычно название компании).

Я использовал API поиска в Твиттере, но он ограничен "последними твитами".Так что для относительно редкого ключевого слова я могу получить не более 500 твитов.

Твиттер говорит, что вам не следует использовать API поиска для исследования.Итак, какой API я должен использовать?

Ответы [ 2 ]

4 голосов
/ 27 марта 2012

Чтобы получить множество твитов с определенными ключевыми словами, используйте Streaming API с Статусами / Фильтром .

Сначала создайте файл (например, tracking.txt).") с условиями track , с ключевыми словами, разделенными запятыми.Это может включать хеш-теги.Например, я использовал следующее для получения твитов со ссылкой и определенными хэштегами.

track=http #baby,http #family,http #children, ...

Затем используйте curl, чтобы перенаправить поток в файл.Обязательно используйте свой твиттер-идентификатор и пароль.

curl -d @tracking.txt https://stream.twitter.com/1/statuses/filter.json -uAnyTwitterUser:Password > stream.json
2 голосов
/ 28 марта 2012

Twitter не предоставляет бесплатный доступ к историческим данным. Datasift и Gnip продают доступ к пожарному шлангу Twitter.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...