Попытка понимания файла robots.txt для AllRecipes.co.uk - PullRequest
0 голосов
/ 26 декабря 2018

Я собираюсь получить информацию из AllRecipes.co.uk, и мне просто нужна помощь в понимании файла robots.txt перед тем, как я начну.

Моя цель - очистить информацию рецепта - идентификатор, имя, средний рейтинг, ингредиенты, сервировки, NumberOfReviews и метод

Кроме того, я буду анализировать обзорную информацию - рейтинг, пользователя и идентификатор пользователя

Я просто хотел проверить, нарушаю ли я какие-либо правила в файле robots.txt, так как я все еще новичок в этом

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /Ajax/
Disallow: /ajax/
Disallow: /Uploads/
Disallow: /uploads/
Disallow: /cms/
Disallow: /cooks/
Disallow: /login/
Disallow: /m/cooks/
Disallow: /m/my-stuff/
Disallow: /*/email-a-friend.aspx
Disallow: /*/print-friendly.aspx
Disallow: /search/                     # search controller path
Disallow: /*/searchresults.aspx
Disallow: /*/galleryview.aspx


Sitemap: http://allrecipes.co.uk/sitemap.xml.gz 
...