Google Summer of Code: набор данных веб-классификации - PullRequest
2 голосов
/ 22 марта 2011

Я слышал, что Google организовал (или проведет) конкурс веб-классификации, и они предоставили большой набор данных (170 тыс. Документов) веб-сайтов, которые были классифицированы по нескольким категориям (спорт, компьютеры, наука и т. Д.), Которые я пытался осмотреть. на их сайте Summer of Code с 2009 по 2011, но ничего не нашел. Кто-нибудь знает, где я могу получить этот набор данных?

1 Ответ

2 голосов
/ 23 марта 2011

Я думаю, что нашел его (хотя я не уверен, что данные были предоставлены Google): Набор данных по вызову ECML / PKDD 2010 Discovery содержит 22 обучающих ярлыка (т. Е. Ярлыки о содержании), URL-адреса и гиперссылки, функции веб-спама на основе контента и ссылок, частоты использования терминов и функции обработки естественного языка.

...