Получить список самых популярных вариантов GET-параметров для данного URL? - PullRequest
1 голос
/ 28 апреля 2009

Я работаю над созданием интеллекта вокруг распространения ссылок, и поскольку мне нужно иметь дело со многими сервисами коротких URL, где требуется обратный поиск по точному URL-адресу, я должен иметь возможность разрешать несколько приблизительных версий тот же URL.

Примером может служить URL-адрес, например http://www.example.com? Ref = affil & hl = en & ct = 0

Конечно, изменение параметров GET в определенных обстоятельствах может ссылаться на совершенно другую страницу, особенно если рассматриваемые параметры GET относятся к профилю или идентификатору содержимого.

Но быстрый анализ страницы быстро определит, насколько страницы похожи друг на друга. Используя немного машинного обучения, можно быстро выяснить, какие параметры GET не влияют на содержимое страниц, возвращаемых для данного сайта.

Я предполагаю, что служба для отправки URL-адреса и получения списка очень похожих URL-адресов может предлагаться только подобными Google или Yahoo (или Twitter), но, похоже, они не предлагают эту функцию, и я не нашел других служб, которые делают.

Если вам известны какие-либо службы, которые объединяют группы практически идентичных URL вышеупомянутым способом, пожалуйста, дайте мне знать.

Моя награда - объятие.

Ответы [ 2 ]

0 голосов
/ 30 апреля 2009

Звучит так, как будто вам нужно создать какой-то дискретный рейтинг сходства между страницами. Это может быть сделано путем нахождения количества похожих слов между двумя страницами и нормализации значения в ограниченном диапазоне, а затем сопоставления определенных частей диапазона с различными рангами сходства.

Вам также необходимо знать для каждой пары, что вы сравниваете, какие GET-параметры они имеют общие или насколько они близки. Эта информация станет атрибутами, которые определяют каждый из ваших экземпляров (сохраняются вместе с рангом, упомянутым выше). После того, как вы собрали несколько сотен пар сравнений, вы, возможно, могли бы сделать выбор некоторого подмножества функций, чтобы определить параметры GET, которые наиболее точно определяют, насколько похожи две страницы.

Конечно, это может в конечном итоге не найти ничего полезного, так как этот набор данных, вероятно, содержит много шума.

Если вы заинтересованы в этом подходе, вам следует изучить Infogain и выбор поднабора функций в целом. Это ссылка на конспект лекций моих профессоров, который может пригодиться. http://stuff.ttoy.net/cs591o/FSS.html

0 голосов
/ 28 апреля 2009

Каждый URL похож на «адрес» расположения данных в Интернете. Часть «host» URL (в вашем примере «www.example.com») - это веб-сервер или набор веб-серверов где-либо в мире. Если мы рассматриваем URL как «адрес», то хост может быть «страной».

Сама страна может отслеживать каждый кусок почты, который поступает в нее. Некоторые делают, некоторые нет. Я говорю о веб-серверах! Конечно, реальные страны не отмечают каждую полученную вами почту! : -)

Но даже если эта «страна» отслеживает все письма - я действительно сомневаюсь, что у них есть какой-либо механизм для отправки вам этого списка.

Что касается организаций, которые могли бы заниматься сбором урожая самостоятельно, я думаю, что лучшим выбором будет Google, но даже там ситуация довольно мрачная. Видите ли, поскольку Google не является владельцем каждого веб-сервера («страны») в мире, они не могут знать каждый URL, который обращается к этому веб-серверу.

Но они могут сделать обратное. Так как они могут индексировать каждую страницу, с которой они сталкиваются, они могут достаточно хорошо понять каждый URL, который появляется на общедоступных HTML-страницах в Интернете. Конечно, это не будет включать URL-адреса, которые люди посылают друг другу в чатах, SMS-сообщениях или электронных письмах. Но, тем не менее, они могут получить довольно хорошее представление о том, какие URL существуют.

Я думаю, что я пытаюсь сказать, что то, что вы ищете, на самом деле не существует. Единственный способ получить все URL-адреса, используемые для доступа к одному сайту, - это владелец этого сайта .

Извините, приятель.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...