Как пролистать сайт для поиска имени и возврата URL-адреса при обнаружении подтверждения в robots.txt? - PullRequest
1 голос
/ 18 августа 2011

Я пытаюсь собрать список биографий для имен, найденных на некоторых сайтах.

У меня есть имена и соответствующие сайты:

name      website
-----------------
John Doe  abc.com
Steve J   apple.com

Например, я хочу найти Джона Доу @ http://abc.com

Я хочу получить URL-адреса в том месте, где был найден Джон Доу:

например:

http://abc.com/board/programmers.php
http://abc.com/team/list.php
http://abc.com/index/welcome.php

Конечно, я хочу соответствовать robots.txt на каждом сайте. Я не занимаюсь сбором данных, я уже знаю, что человек "X" связан с веб-сайтом "Y", чтобы перечислить свою биографию. Я уверен, что администратор сайта не будет возражать против этого!

Я наткнулся на Scrapy, но я не знаю точного URL, где это имя встречается на веб-сайте. Все, что у меня есть, - это корень сайта, и я хочу, чтобы сканер просканировал каждую связанную страницу.

Набирая это, я начал задаваться вопросом, почему бы не ввести поисковый запрос и веб-сайт в Google и автоматически удалить результат из Google, но Google не позволяет вам сделать это в их ToS, я полагаю.

1 Ответ

0 голосов
/ 22 января 2019

Использование поисковой системы, либо соскребая ее, либо используя их API (если вы можете следовать их Условиям использования), определенно является подходящим способом.

Смотрите, например, , как это сделать с DuckDuckGo .

...