robots.txt content / selenium web scraping - PullRequest
0 голосов
/ 14 июля 2020

Я пытаюсь запустить веб-парсинг с использованием селена

Что означает этот контент robot.txt?

User-Agent: *
Disallow: /go/
Disallow: /launch-announcement/

Могу ли я запустить веб-парсинг во всех папках, кроме go, и запустить -объявление?

Ответы [ 2 ]

1 голос
/ 14 июля 2020

Согласно руководству basi c robots.txt , правило -

User-Agent: *
Disallow: /go/
Disallow: /launch-announcement/

означает, что сканирование /go/ и /launch-announcement/ (и их подкаталогов) запрещено для все пользовательские агенты.

1 голос
/ 14 июля 2020

Что такое файл robots.txt?

Robots.txt - это текстовый файл, который веб-мастера создают, чтобы проинструктировать веб-роботов (обычно роботов поисковых систем), как сканировать страницы на своем веб-сайте. Файл robots.txt является частью протокола исключения роботов (REP), группы веб-стандартов, которые регулируют, как роботы сканируют Интернет, получают доступ и индексируют контент, а также предоставляют этот контент пользователям. REP также включает в себя такие директивы, как мета-роботы, а также инструкции для страницы, подкаталога или сайта о том, как поисковые системы должны обрабатывать ссылки (например, «следовать» или «nofollow»).

На практике , файлы robots.txt указывают, могут ли определенные пользовательские агенты (программное обеспечение для веб-сканирования) сканировать части веб-сайта. Эти инструкции сканирования определяются как «запрещающие» или «разрешающие» поведение определенных (или всех) пользовательских агентов. подробнее ...

Disallow: сообщает роботу, что он не должен посещать указанную страницу на сайте.

Могу ли я выполнить удаление веб-страниц во всех папках, кроме go и объявления о запуске?

Да , вы можете удалить другую страницу, кроме этих 2.

...