Question

Нам хотелось бы знать, можно ли использовать базу данных commoncrawl в качестве допустимого набора данных для классификации URL.

Sebastian Nagel · Answer 1 · 12 февраля 2019

Архивы Common Crawl могут содержать все виды вредоносного контента с низкой скоростью.В настоящее время только спам по ссылкам классифицируется и частично блокируется для обхода.

В целом, широкий образец сканирования может включать в себя спам, вредоносные сайты и т. Д. Архивы Common Crawl также используются для исследований в области веб-безопасности,срhttps://scholar.google.de/scholar?q=commoncrawl+vulnerability

Эта тема уже обсуждалась на https://groups.google.com/d/msg/common-crawl/xmSZX85cRjg/zwi5vn4NBAAJ

Commoncrawl содержит только доброкачественные URL?Если да, как они избегают индексации вредоносных URL-адресов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Commoncrawl содержит только доброкачественные URL?Если да, как они избегают индексации вредоносных URL-адресов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы