Как сайты, такие как Hubspot, отслеживают входящие ссылки? - PullRequest
9 голосов
/ 12 декабря 2008

Все эти типы сайтов просто незаконно очищают Google или другую поисковую систему?
Насколько я могу судить, нет «легального» способа получить эти данные для коммерческого сайта. Yahoo! API (http://developer.yahoo.com/search/siteexplorer/V1/inlinkData.html) только для некоммерческого использования, Yahoo! Босс не разрешает автоматические запросы и т. Д.
Есть идеи?

Ответы [ 2 ]

4 голосов
/ 16 апреля 2009

Например, если вы хотите найти все ссылки на главную страницу Google, выполните поиск

link:http://www.google.com

Так что, если вы хотите найти все входящие ссылки, вы можете просто просмотреть дерево вашего сайта и для каждого найденного элемента создать URL. Затем запросите у Google:

link:URL

И вы получите коллекцию всех ссылок, которые Google имеет на других сайтах, на ваш сайт.

Что касается законности такого сбора урожая, я уверен, что получать прибыль от этого не совсем законно, но это никогда никого не останавливало, не так ли?

(Так что я не стал бы задаваться вопросом, сделали ли они это или нет. Просто предположите, что они делают.)

3 голосов
/ 14 мая 2011

Я не знаю, что делает hubspot, но, если вы хотите выяснить, какие сайты ссылаются на ваш сайт, и у вас нет оборудования для сканирования в Интернете, вы можете контролировать HTTP_REFERER посетители вашего сайта. Вот, например, как Google Analytics (насколько я знаю) может сказать вам, откуда приходят ваши посетители. Это не на 100% надежно, так как не все браузеры устанавливают его, особенно в «режиме конфиденциальности», но вам нужно только один посетитель на ссылку, чтобы знать, что он существует!

Это часто достигается путем встраивания скрипта в каждую из ваших веб-страниц (часто в общий колонтитул). Например, если вы изучите источник страницы, которую вы сейчас читаете, вы найдете (внизу) скрипт, который сообщает Google информацию о вашем посещении.

Теперь это не скажет вам, есть ли ссылки, которые никто никогда не использовал, чтобы попасть на ваш сайт, но давайте посмотрим правде в глаза, они намного менее интересны, чем те, которые люди фактически используют.

...