Apache Nutch и антиспам базы данных - PullRequest
0 голосов
/ 07 апреля 2019

Используя Nutch для сбора URL-адресов с веб-сайтов, он заметил, что после запуска в течение примерно одного дня мой ip-адрес заносится в черный список на некоторых крупных веб-сайтах, которые я не сканировал вообще.После дальнейших провокаций кажется, что мой IP-адрес каким-то образом занесен в базы антиспама, что может объяснить, почему.

Учитывая, что я уже следую стандартным настройкам и правилам вежливости, мне интересно, знает ли кто-нибудькак это предотвратить?Как Google и другие крупные поисковые системы работают вокруг этого?Нужно ли иметь большой пул IP-адресов?

...