В следующем файле robots.txt говорится, что нужно запретить все каталоги для сорока-краулера.Допустим, я использовал другой веб-сканер, такой как Scrapy.В этом файле robots.txt больше ничего не перечислено, так будет ли бот-роботу разрешать скрести?
User-agent: magpie-crawler Disallow: / Sitemap: https://www.digitaltrends.com/sitemap_index.xml Sitemap: https://www.digitaltrends.com/news.sitemap.google.xml Sitemap: https://www.digitaltrends.com/image-sitemap-index.xml
Вы можете анализировать данные с помощью Scrapy.Просто опишите в шапке, что вы ВЕБ-БРАУЗЕР в настройках Scrapy:
'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'
Согласно официальному сайту , это означает, что запрещен только один бот.При желании вы можете использовать Scrapy.
Если бы они хотели, они могли бы разрешить только один бот:
User-agent: Google Disallow: User-agent: * Disallow: /