Question

Мы заинтересованы в бинарной классификации веб-страниц, представленных в Интернете, например, Ecommerce или Non-Ecommerce.

В настоящее время мы используем библиотеку Mahout с наивным байесовским алгоритмом.Мы создаем обучающие данные из существующих классифицированных URL-адресов и набора функций из одного и того же.

Каков наилучший способ с точки зрения точности для выполнения этой задачи?

Мне нужна помощь в плане алгоритма, библиотеки (можно использовать с JAVA) или любые другие идеи, которые помогают в таких типах классификации.

Заранее спасибо.

andrey · Answer 1 · 13 января 2012

Вопрос достаточно общий, поэтому я могу добавить только общую информацию.

Способы улучшения качества вашей классификации (в порядке важности):

использование лемматизациии / или Stemming для использования только базовых форм слов
реализация фильтра слов для удаления ненужных слов
обучение отдельных классификаторов для разных языков

J-16 SDiZ · Answer 2 · 13 января 2012

Вы можете попробовать использовать какую-то существующую, хорошо настроенную программу, ...

CRM411 разработан как спам-фильтр, но он достаточно универсален, чтобы делать то, что вы хотите. Люди используют это, чтобы сортировать резюме и материалы. У него много двигателей (HMM, SVM, CLUMP, Bayes и т. Д.). Попробуйте.

0605002 · Answer 3 · 13 января 2012

Этот является очень хорошей демонстрацией алгоритма, касающегося классификатора NB.

Отбрасывание наиболее распространенных слов приведет к улучшению прогнозов. IDF может быть хорошим инструментом для фильтрации этих слов.Также см. Википедия .

Бинарная классификация для веб-страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Бинарная классификация для веб-страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы