Я новичок во всей концепции скриншота экрана в Python, хотя я немного поэкспериментировал с R. Я пытаюсь почистить сайт Yelp. Я пытаюсь вычеркнуть названия каждого страхового агентства, которое выдает поиск в визг. С большинством скребущих задач я могу выполнить следующую задачу, но мне всегда будет трудно разобраться с xml.
import urllib2
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib2.urlopen('http://www.yelp.com/search?find_desc=insurance+agency&ns=1&find_loc=Austin').read())
print soup
Так что, при очистке сайта, какие шаги нужно выполнить? Есть ли набор необходимых действий, которые нужно выполнять каждый раз, когда они пытаются очистить сайт?
Я использую Python 2.6 в Ubuntu 10.10
Я понимаю, что это может быть плохой вопрос SO, как изложено в часто задаваемых вопросах, но я надеюсь, что кто-то может предоставить некоторые общие рекомендации и вещи, которые следует учитывать при очистке сайта.