Бинарная классификация для веб-страниц - PullRequest
3 голосов
/ 13 января 2012

Мы заинтересованы в бинарной классификации веб-страниц, представленных в Интернете, например, Ecommerce или Non-Ecommerce.

В настоящее время мы используем библиотеку Mahout с наивным байесовским алгоритмом.Мы создаем обучающие данные из существующих классифицированных URL-адресов и набора функций из одного и того же.

Каков наилучший способ с точки зрения точности для выполнения этой задачи?

Мне нужна помощь в плане алгоритма, библиотеки (можно использовать с JAVA) или любые другие идеи, которые помогают в таких типах классификации.

Заранее спасибо.

Ответы [ 3 ]

3 голосов
/ 13 января 2012

Вопрос достаточно общий, поэтому я могу добавить только общую информацию.

Способы улучшения качества вашей классификации (в порядке важности):

  • использование лемматизациии / или Stemming для использования только базовых форм слов
  • реализация фильтра слов для удаления ненужных слов
  • обучение отдельных классификаторов для разных языков
1 голос
/ 13 января 2012

Вы можете попробовать использовать какую-то существующую, хорошо настроенную программу, ...

CRM411 разработан как спам-фильтр, но он достаточно универсален, чтобы делать то, что вы хотите. Люди используют это, чтобы сортировать резюме и материалы. У него много двигателей (HMM, SVM, CLUMP, Bayes и т. Д.). Попробуйте.

0 голосов
/ 13 января 2012

Этот является очень хорошей демонстрацией алгоритма, касающегося классификатора NB.

Отбрасывание наиболее распространенных слов приведет к улучшению прогнозов. IDF может быть хорошим инструментом для фильтрации этих слов.Также см. Википедия .

...