Игнорирование robots.txt и метатегов в сканере - PullRequest
0 голосов
/ 29 апреля 2020

Есть ли способ заставить сканер игнорировать файл и теги robots.txt? Да, я знаю, что это может привести к юридическим последствиям. Этот вопрос очень похож на другой вопрос , но ответы были очень расплывчаты, и я не совсем понял. любая помощь приветствуется.

1 Ответ

0 голосов
/ 29 апреля 2020

Сканер не должен придерживаться robots.txt, потому что нет физической меры, чтобы остановить его, если он этого не делает.

Простой веб-сканер может сделать:

FOR SITE IN SEARCH
    IF ALLOWED_TO_CRAWL_BASED_ON_ROBOTS_TXT(SITE)
        FOR LINK IN SITE
             DO_SOMETHING

это можно изменить на:

FOR SITE IN SEARCH
    FOR LINK IN SITE
       DO_SOMETHING
...