Некоторые серверы имеют файл robots.txt, чтобы запретить сканерам обходить свои сайты. Есть ли способ заставить веб-сканер игнорировать файл robots.txt? Я использую Mechanize для Python.
Документация для механизации имеет следующий пример кода:
br = mechanize.Browser() .... # Ignore robots.txt. Do not do this without thought and consideration. br.set_handle_robots(False)
Это именно то, что вы хотите.
Это выглядит так, как вам нужно:
from mechanize import Browser br = Browser() # Ignore robots.txt br.set_handle_robots( False )
но вы знаете, что делаете ...