Сканер не должен придерживаться robots.txt, потому что нет физической меры, чтобы остановить его, если он этого не делает.
Простой веб-сканер может сделать:
FOR SITE IN SEARCH
IF ALLOWED_TO_CRAWL_BASED_ON_ROBOTS_TXT(SITE)
FOR LINK IN SITE
DO_SOMETHING
это можно изменить на:
FOR SITE IN SEARCH
FOR LINK IN SITE
DO_SOMETHING