Классификация типа сайта с веб-страниц - PullRequest
3 голосов
/ 10 января 2011

Существуют ли надежные / развернутые подходы, алгоритмы или инструменты для маркировки типа веб-сайта путем анализа некоторых его веб-страниц.

Например: форумы, блоги, сайты PressRelease, новости, E-Comm и т. Д.

Я ищу некоторые четко определенные характеристики (статические правила), по которым это можно определить.Если нет, то я надеюсь, что модель машинного обучения может помочь.

Предложения / Идеи?

Ответы [ 2 ]

4 голосов
/ 10 января 2011

Если вы подойдете к этому с точки зрения машинного обучения, у наивного байесовского классификатора, вероятно, будет наибольшее соотношение работы и отдачи.Его версия используется в Winnow для классификации новостных статей.

Вам понадобится коллекция страниц, каждая из которых помечена соответствующей категорией.Затем вы извлекаете слова или другие релевантные элементы с каждой страницы и используете их как функции

Dr.Dobbs предлагает статью о реализации Наивного Байеса

2 голосов
/ 20 января 2011

Если вы заинтересованы в продолжении наивного байесовского подхода (в конце концов, есть и другие варианты машинного обучения), я предлагаю следующий документ, который следует за темой в разделе «Интеллектуальный анализ данных: практические инструменты машинного обучения и Техники ", Виттен и Фрэнк:

http://www.coli.uni -sb.de / ~ Crocker / Обучение / Коннекшионистский / lecture10_4up.pdf

...