Нам хотелось бы знать, можно ли использовать базу данных commoncrawl в качестве допустимого набора данных для классификации URL.
Архивы Common Crawl могут содержать все виды вредоносного контента с низкой скоростью.В настоящее время только спам по ссылкам классифицируется и частично блокируется для обхода.
В целом, широкий образец сканирования может включать в себя спам, вредоносные сайты и т. Д. Архивы Common Crawl также используются для исследований в области веб-безопасности,срhttps://scholar.google.de/scholar?q=commoncrawl+vulnerability
Эта тема уже обсуждалась на https://groups.google.com/d/msg/common-crawl/xmSZX85cRjg/zwi5vn4NBAAJ