В настоящее время я работаю над проектом, который требует базы данных, классифицирующей веб-сайты (например, cnn.com = новости).Нам нужны только широкие классификации - нам не нужно, чтобы каждый URL классифицировался индивидуально.Мы говорим с обычными поставщиками таких баз данных, но большинство цитат, которые мы получили, довольно дороги и часто предъявляют раздражающие требования - например, необходимость использовать их SDK для запроса к базе данных.
В то же время я сам изучал возможность создания такой базы данных.Я понимаю, что это не 5-минутная работа, поэтому я провожу много исследований.
Из прочтения различных статей по этому вопросу кажется, что наивный байесовский классификатор обычно является стандартным подходом для этого.Тем не менее, во многих статьях предлагаются усовершенствования для повышения точности классификации веб-сайтов - обычно за счет использования другой контекстной информации, такой как гиперссылки, теги заголовков, фразы из нескольких слов, URL-адрес, частота появления слов и т. Д.
Я экспериментировал с наивным байесовским классификатором Махоута по тестовому набору 20 Newsgroup, и я вижу его применимость к классификации веб-сайтов, но меня беспокоит его точность для моего варианта использования.
Кто-нибудьзнаете о целесообразности расширения байесовского классификатора в Mahout для учета дополнительных атрибутов?Будем очень благодарны за любые указания относительно того, с чего начать.
В качестве альтернативы, если я лаю совсем не на том дереве, пожалуйста, дайте мне знать!