Я столкнулся со сложностями, связанными с очисткой веб-сайтов и попаданием в них, особенно в Facebook (если вы хотите увидеть мою хитрую реализацию с использованием селена, см. this . Я не потворствую нарушению условий использования веб-сайта, и Я не несу ответственности за ваши действия по нарушению ToS ... НО
В тех случаях, когда вас ущипнули за автоматическую очистку, подумайте о том, чтобы после вашего запроса очистки выполнить произвольный вызов ожидания. пример:
import time
min_allowable_time, max_allowable_time = (1, 7) # this is in seconds.
for x in range(0, 100):
your_scraping_function()
time.sleep(random.uniform(min_allowable_time, max_allowable_time))
your_next_page_function()
Здесь необходимо изменить время ожидания. Вы также можете использовать этот скребок для работы в определенное время суток, например, только с 08:00 до 22:00.
ps Мне было гораздо проще очищать мобильные сайты, т.е. www.m.facebook.com