Я пытаюсь собрать список биографий для имен, найденных на некоторых сайтах.
У меня есть имена и соответствующие сайты:
name website
-----------------
John Doe abc.com
Steve J apple.com
Например, я хочу найти Джона Доу @ http://abc.com
Я хочу получить URL-адреса в том месте, где был найден Джон Доу:
например:
http://abc.com/board/programmers.php
http://abc.com/team/list.php
http://abc.com/index/welcome.php
Конечно, я хочу соответствовать robots.txt на каждом сайте. Я не занимаюсь сбором данных, я уже знаю, что человек "X" связан с веб-сайтом "Y", чтобы перечислить свою биографию. Я уверен, что администратор сайта не будет возражать против этого!
Я наткнулся на Scrapy, но я не знаю точного URL, где это имя встречается на веб-сайте. Все, что у меня есть, - это корень сайта, и я хочу, чтобы сканер просканировал каждую связанную страницу.
Набирая это, я начал задаваться вопросом, почему бы не ввести поисковый запрос и веб-сайт в Google и автоматически удалить результат из Google, но Google не позволяет вам сделать это в их ToS, я полагаю.