В проекте есть модуль, который берет URL-адрес и определяет, является ли он веб-сайтом "Ecommerce" или "NON-Ecommerce".
Я испробовал следующие подходы:
Использование Apache mahout, Классификация: URL ---> Возьмите дамп html ---> предварительно обработайте дамп html: a) удалите все html тэги
b) удалите стоп-слова (также известные как слова)например, CDATA, href, value и, of of, между и т. д.
c) модель обучения, а затем ее тестирование.
Следующие параметры, которые я использовал для обучения
bin / mahout trainclassifier \ -i training-data \ -o bayes-model \> -типа байесов -нг 1
Тестирование:
/bin/mahout testclassifier \
-d test-data \
-m bayes-model \
-type bayes -source hdfs -ng 1 -method sequential
Точность составляет 73%, а алгоритм cbayes - 52%.
Я думаю улучшить предварительную обработкуЭтап путем извлечения информации, которую можно найти на веб-сайте электронной коммерции, такой как «Кнопка оплаты», «Ссылка Pay Pay», «Символ цены / доллар», текст, такой как «Оплата наложенным платежом», «Гарантия 30 дней» и т. д.
Любые предложения о том, как извлечь эту информацию или какие-либо другие способы предсказать сайт как Ecommerce или Non-Ecommerce?