Детали страницы Facebook и RESTful API? - PullRequest
2 голосов
/ 21 января 2010

Привет! У меня есть список URL страниц Facebook

eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...

Какой лучший способ:

  • Проверьте, действительно ли эти URL на самом деле для страниц Facebook и не Профили

  • Соберите такие сведения, как Количество вентиляторов с этих страниц

Помощь была бы очень признательна.

Ответы [ 4 ]

3 голосов
/ 21 января 2010

Без удаления какого-либо содержимого (что в любом случае противоречит условиям обслуживания Facebook):

  1. Извлечение части имени пользователя из URL то есть немного после www.facebook.com/
  2. Выполнить FQL-запрос вида select fan_count from page where username='michaeljackson'
  3. Если результат возвращается, вы знаете, что это Страница, а не профиль пользователя.

См. Таблицу FQL для других данных, которые можно получить с помощью того же вызова.

2 голосов
/ 21 января 2010

используйте urllib2 или pyfacebook для получения содержимого

используйте BeautifulSoup или lxml для его анализа

используйте модуль re (регулярные выражения) для извлечения контента для проверки и сбора данных

1 голос
/ 21 января 2010

Количество поклонников в теге с классом «FanManager». Вы можете использовать Beautiful Soup, чтобы получить содержимое этого тега, и регулярные выражения, чтобы получить данные из строки (например, 1 000 000 поклонников) в виде целых чисел или как вам угодно.

Чтобы увидеть, существует ли страница, проверьте некоторые теги, чтобы увидеть, находитесь ли вы на странице 404.

0 голосов
/ 21 января 2010

Вы можете использовать scrapy или BeautifulSoup для очистки содержимого.

...