Как программно определить, является ли URL-адрес веб-сайта электронной или электронной торговли? - PullRequest
6 голосов
/ 22 января 2012

В проекте есть модуль, который берет URL-адрес и определяет, является ли он веб-сайтом "Ecommerce" или "NON-Ecommerce".

Я испробовал следующие подходы:

  1. Использование Apache mahout, Классификация: URL ---> Возьмите дамп html ---> предварительно обработайте дамп html: a) удалите все html тэги

    b) удалите стоп-слова (также известные как слова)например, CDATA, href, value и, of of, между и т. д.

    c) модель обучения, а затем ее тестирование.

Следующие параметры, которые я использовал для обучения

bin / mahout trainclassifier \ -i training-data \ -o bayes-model \> -типа байесов -нг 1

Тестирование:

/bin/mahout testclassifier \
  -d test-data \
  -m bayes-model \
  -type bayes -source hdfs -ng 1 -method sequential

Точность составляет 73%, а алгоритм cbayes - 52%.

Я думаю улучшить предварительную обработкуЭтап путем извлечения информации, которую можно найти на веб-сайте электронной коммерции, такой как «Кнопка оплаты», «Ссылка Pay Pay», «Символ цены / доллар», текст, такой как «Оплата наложенным платежом», «Гарантия 30 дней» и т. д.

Любые предложения о том, как извлечь эту информацию или какие-либо другие способы предсказать сайт как Ecommerce или Non-Ecommerce?

1 Ответ

1 голос
/ 23 января 2012

Я очень удивлен, что вы получаете такую ​​хорошую точность с простым извлечением html и классификатором Байеса.

Но вы, кажется, находитесь на правильном пути с такими функциями, как кнопка оформления заказа и цены.

Вот статья, которую я нашел вчера, читая о Яндексе:

«Узнать или купить? Обзор продукта и классификатор интернет-магазина»

Речь идет о том, как отличить эти два сайта и некоторые методы, которые они использовали. Они также использовали SVM вместо наивных байесов.

...