Чтение файла robots.txt - PullRequest
       26

Чтение файла robots.txt

0 голосов
/ 27 января 2019

В следующем файле robots.txt говорится, что нужно запретить все каталоги для сорока-краулера.Допустим, я использовал другой веб-сканер, такой как Scrapy.В этом файле robots.txt больше ничего не перечислено, так будет ли бот-роботу разрешать скрести?

User-agent: magpie-crawler
Disallow: /


Sitemap: https://www.digitaltrends.com/sitemap_index.xml
Sitemap: https://www.digitaltrends.com/news.sitemap.google.xml
Sitemap: https://www.digitaltrends.com/image-sitemap-index.xml

Ответы [ 2 ]

0 голосов
/ 27 января 2019

Вы можете анализировать данные с помощью Scrapy.Просто опишите в шапке, что вы ВЕБ-БРАУЗЕР в настройках Scrapy:

'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'
0 голосов
/ 27 января 2019

Согласно официальному сайту , это означает, что запрещен только один бот.При желании вы можете использовать Scrapy.

Если бы они хотели, они могли бы разрешить только один бот:

User-agent: Google
Disallow: 

User-agent: * 
Disallow: /
...