Как получить потоковые данные из твиттера, связанного с pycurl, используя nltk - регулярное выражение - PullRequest
2 голосов
/ 28 июля 2011

Я новичок в Python и получил задание от моего босса:

  1. Получение потоковых данных из твиттера, подключение к pycurl и вывод в JSON
  2. С помощью NLTKРегулярное выражение
  3. Сохраните его в файл базы данных (mySQL) или в базу файлов (txt)

Примечание: это URL, который я хочу получить ('http://search.twitter.com/search.json?geocode=-0.789275%2C113.921327%2C1.0km&q=+near%3Aindonesia+within%3A1km&result_type=recent&rpp=10')

Кто-нибудь знает, как получить потоковую информацию из твиттера, используя шаг выше?

Ваша помощь была бы очень благодарна:)

1 Ответ

2 голосов
/ 08 августа 2011

Я бы посмотрел на pattern : это очень хорошая библиотека для веб-майнинга, и она также поставляется с API для майнинга Twitter. Документация тоже довольно хорошая.

В противном случае, посмотрите на https://dev.twitter.com/docs/twitter-libraries для библиотек Twitter, и получение потока также должно быть довольно простым.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...