Как сделать веб-скребок / гусеничный / робот "дружественным"? - PullRequest
1 голос
/ 16 мая 2019

Под "дружественным" я подразумеваю соображения за пределами robots.txt [1 , 2] и <meta> tag :

  • с уважением к определенным показателям (например, резервная полоса пропускания путем периодических очисток или избегания большого количества одновременных или повторных запросов)
  • прозрачность и подотчетность (т. Е. Упрощение поиска информации о ее происхождении и назначении, например this . Возможно ли это только путем предоставления уникального User-Agent HTTP-заголовка для проекта?)
  • Что еще следует включить в этот список?
...