Алгоритм: определение типа домашней страницы? - PullRequest
1 голос
/ 15 октября 2010

Я уже давно об этом думаю, поэтому подумал, что буду просить предложения:

У меня есть какой-то сканер, который входит в корень какого-либо сайта (может быть что угодно от www.StackOverFlow.com, www.SomeDudesPersonalSite.se или даже www.Facebook.com).Затем мне нужно определить, какую «домашнюю страницу» я посещаю. Например, могут быть следующие типы:

  • Форум
  • Блог
  • Каталог ссылок
  • Сайт социальных сетей
  • Сайт новостей
  • «Сайт одного человека»

Я уже некоторое время проводил мозговой штурм, и кажется, что лучшее решениебыть эвристическим с системой баллов.Под этим я подразумеваю, что разные тренды дают несколько баллов различным типам, а затем программа делает предположение.

Но это то, где я застреваю ... Как вы обнаруживаете тренды?

  • Каталоги могут быть простыми: если sitesIndexed / Исходящие ссылки очень высоки, каталоги должны получать несколько баллов.
  • Новостные сайты / блоги могут быть простыми: если большое количество проиндексированных сайтов имеет дату и время, эти типыдолжен получить несколько баллов ..

НО на самом деле я не могу найти слишком много трендов.

ТАК: Мой вопрос: есть идеи о том, как это сделать?

Большое спасибо ..

Ответы [ 2 ]

3 голосов
/ 15 октября 2010

Я полагаю, вы пытаетесь классифицировать документы, что является хорошо изученной темой.

http://en.wikipedia.org/wiki/Document_classification

Вы увидите значительный список множества различных методов. Но предложить какую-либо одну из них (или нейронные сети или тому подобное) до определения «тенденций», как вы их называете, означает преждевременное предложение. Я бы порекомендовал изучить «классификацию веб-документов» или тому подобное. Это, очевидно, значительная часть классификации документов, и если у вас есть доступ к академическим журналам, есть много непонятных статей для вашего удовольствия.

Я также нашел твою идею в качестве домашнего задания - возможно, если ты особенно смел, ты мог бы связаться с профессором. http://uhaweb.hartford.edu/compsci/ccli/wdc.htm

Наконец, я считаю, что это доступный (если странно отформатированный) веб-сайт, на котором есть общее и, возможно, устаревшее обсуждение: http://www.webology.ir/2008/v5n1/a52.html

Боюсь, я не очень хорошо разбираюсь в этой теме, поэтому самое лучшее, что я мог сделать, - это сказать вам ключевое слово «классификация документов» и быстро найти информацию. Однако, если бы я захотел поиграть с этой концепцией, я думаю, просто поиск рейтинга определенных ключевых слов - это достойный стартовый «тренд». («Продажа», «покупка» или «клиенты» - это тенденции для сайтов покупок, «мое», «мнение», «комментарий», для блогов и т. Д.)

0 голосов
/ 15 октября 2010

Вы можете обучить нейронную сеть распознавать их. Дайте ему количество / типы ссылок, а также типы тегов HTML.

Я думаю, что в противном случае вы просто будете догадываться, что делает сайт тем, чем он является.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...