Question

Я уже давно об этом думаю, поэтому подумал, что буду просить предложения:

У меня есть какой-то сканер, который входит в корень какого-либо сайта (может быть что угодно от www.StackOverFlow.com, www.SomeDudesPersonalSite.se или даже www.Facebook.com).Затем мне нужно определить, какую «домашнюю страницу» я посещаю. Например, могут быть следующие типы:

Форум
Блог
Каталог ссылок
Сайт социальных сетей
Сайт новостей
«Сайт одного человека»

Я уже некоторое время проводил мозговой штурм, и кажется, что лучшее решениебыть эвристическим с системой баллов.Под этим я подразумеваю, что разные тренды дают несколько баллов различным типам, а затем программа делает предположение.

Но это то, где я застреваю ... Как вы обнаруживаете тренды?

Каталоги могут быть простыми: если sitesIndexed / Исходящие ссылки очень высоки, каталоги должны получать несколько баллов.
Новостные сайты / блоги могут быть простыми: если большое количество проиндексированных сайтов имеет дату и время, эти типыдолжен получить несколько баллов ..

НО на самом деле я не могу найти слишком много трендов.

ТАК: Мой вопрос: есть идеи о том, как это сделать?

Большое спасибо ..

agorenst · Answer 1 · 15 октября 2010

Я полагаю, вы пытаетесь классифицировать документы, что является хорошо изученной темой.

http://en.wikipedia.org/wiki/Document_classification

Вы увидите значительный список множества различных методов. Но предложить какую-либо одну из них (или нейронные сети или тому подобное) до определения «тенденций», как вы их называете, означает преждевременное предложение. Я бы порекомендовал изучить «классификацию веб-документов» или тому подобное. Это, очевидно, значительная часть классификации документов, и если у вас есть доступ к академическим журналам, есть много непонятных статей для вашего удовольствия.

Я также нашел твою идею в качестве домашнего задания - возможно, если ты особенно смел, ты мог бы связаться с профессором. http://uhaweb.hartford.edu/compsci/ccli/wdc.htm

Наконец, я считаю, что это доступный (если странно отформатированный) веб-сайт, на котором есть общее и, возможно, устаревшее обсуждение: http://www.webology.ir/2008/v5n1/a52.html

Боюсь, я не очень хорошо разбираюсь в этой теме, поэтому самое лучшее, что я мог сделать, - это сказать вам ключевое слово «классификация документов» и быстро найти информацию. Однако, если бы я захотел поиграть с этой концепцией, я думаю, просто поиск рейтинга определенных ключевых слов - это достойный стартовый «тренд». («Продажа», «покупка» или «клиенты» - это тенденции для сайтов покупок, «мое», «мнение», «комментарий», для блогов и т. Д.)

Skilldrick · Answer 2 · 15 октября 2010

Вы можете обучить нейронную сеть распознавать их. Дайте ему количество / типы ссылок, а также типы тегов HTML.

Я думаю, что в противном случае вы просто будете догадываться, что делает сайт тем, чем он является.

Алгоритм: определение типа домашней страницы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Алгоритм: определение типа домашней страницы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы