Мы заинтересованы в бинарной классификации веб-страниц, представленных в Интернете, например, Ecommerce или Non-Ecommerce.
В настоящее время мы используем библиотеку Mahout с наивным байесовским алгоритмом.Мы создаем обучающие данные из существующих классифицированных URL-адресов и набора функций из одного и того же.
Каков наилучший способ с точки зрения точности для выполнения этой задачи?
Мне нужна помощь в плане алгоритма, библиотеки (можно использовать с JAVA) или любые другие идеи, которые помогают в таких типах классификации.
Заранее спасибо.