Пригодность наивного байесовского классификатора в Mahout для классификации сайтов - PullRequest
1 голос
/ 02 ноября 2011

В настоящее время я работаю над проектом, который требует базы данных, классифицирующей веб-сайты (например, cnn.com = новости).Нам нужны только широкие классификации - нам не нужно, чтобы каждый URL классифицировался индивидуально.Мы говорим с обычными поставщиками таких баз данных, но большинство цитат, которые мы получили, довольно дороги и часто предъявляют раздражающие требования - например, необходимость использовать их SDK для запроса к базе данных.

В то же время я сам изучал возможность создания такой базы данных.Я понимаю, что это не 5-минутная работа, поэтому я провожу много исследований.

Из прочтения различных статей по этому вопросу кажется, что наивный байесовский классификатор обычно является стандартным подходом для этого.Тем не менее, во многих статьях предлагаются усовершенствования для повышения точности классификации веб-сайтов - обычно за счет использования другой контекстной информации, такой как гиперссылки, теги заголовков, фразы из нескольких слов, URL-адрес, частота появления слов и т. Д.

Я экспериментировал с наивным байесовским классификатором Махоута по тестовому набору 20 Newsgroup, и я вижу его применимость к классификации веб-сайтов, но меня беспокоит его точность для моего варианта использования.

Кто-нибудьзнаете о целесообразности расширения байесовского классификатора в Mahout для учета дополнительных атрибутов?Будем очень благодарны за любые указания относительно того, с чего начать.

В качестве альтернативы, если я лаю совсем не на том дереве, пожалуйста, дайте мне знать!

1 Ответ

0 голосов
/ 02 ноября 2011

Вы можете контролировать ввод примерно столько, сколько хотите. В конце вход является просто вектором признаков. Функциональными элементами вектора могут быть слова или биграммы, но они также могут быть любыми. Так что, да, вы можете добавлять новые функции, изменяя ввод, как вам нравится.

Как лучше всего ткать в этих функциях - это совсем другая тема - нет лучшего способа конвертировать их в числа. Mahout в действии достаточно хорошо справляется с этой задачей.

...