Commoncrawl содержит только доброкачественные URL?Если да, как они избегают индексации вредоносных URL-адресов? - PullRequest
0 голосов
/ 12 февраля 2019

Нам хотелось бы знать, можно ли использовать базу данных commoncrawl в качестве допустимого набора данных для классификации URL.

1 Ответ

0 голосов
/ 12 февраля 2019

Архивы Common Crawl могут содержать все виды вредоносного контента с низкой скоростью.В настоящее время только спам по ссылкам классифицируется и частично блокируется для обхода.

В целом, широкий образец сканирования может включать в себя спам, вредоносные сайты и т. Д. Архивы Common Crawl также используются для исследований в области веб-безопасности,срhttps://scholar.google.de/scholar?q=commoncrawl+vulnerability

Эта тема уже обсуждалась на https://groups.google.com/d/msg/common-crawl/xmSZX85cRjg/zwi5vn4NBAAJ

...