Создание индекса URL-адресов, какие функции включить? - PullRequest
0 голосов
/ 28 февраля 2010

Я работаю над созданием индекса URL-адресов. Цель состоит в том, чтобы создать и сохранить структуру данных, которая будет иметь ключ в качестве URL-адреса домена (например, www.nytimes.com), а значение будет представлять собой набор функций, связанных с этим URL-адресом. Я ищу ваши предложения для этого набора функций. Например, я хотел бы хранить www.nytimes.com следующим образом:

[www.nytimes.com: [lang: en, alexa_rank: 96, content_type: news, spam_probability: 0.0001 и т. Д.]

Почему я это строю? Итак, конечная цель состоит в том, чтобы сделать некоторые интересные вещи с этим индексом, например, я могу сделать кластеризацию по этому индексу и найти интересные группы и т. Д. У меня есть целый текст, который был сгенерирован целыми паролями URL за период целого много времени :) Так что данные не проблема.

Любые предложения приветствуются.

Ответы [ 2 ]

0 голосов
/ 28 февраля 2010

Мой первый ответ, так что пожалуйста со мной ...

Возможно, я бы начал здесь: Google официальные документы по ИК

Тогда, может быть, также поискать технические документы по IR в Google?

Также несколько вещей, которые нужно добавить в ваш индекс:

  1. Поддомены, связанные с доменом
  2. IP-адреса, связанные с доменом
  3. Средняя скорость страницы
  4. Ссылки, указывающие на домен в Yahoo - например, ссылка: nytimes.com или поиск по Yahoo
  5. Количество страниц на домене - сайт: nytimes.com в Google
  6. номера трафика на сайте Compette.com или в Google Trends
  7. информация о Whois, например возраст домена, продолжительность регистрации и т. д.

Некоторые другие места для исследования - http://www.majesticseo.com/, http://www.opensearch.org/Home и http://www.seomoz.org все они имеют свои собственные индексы

Я уверен, что их гораздо больше, но, надеюсь, ИК-компоненты вызовут жужжание:)

0 голосов
/ 28 февраля 2010

Сначала сделайте так, как вы предлагали. Затем начните добавлять функции, предложенные всеми остальными.

идеи ничего не стоят, если казнены.

- http://www.codinghorror.com/blog/2010/01/cultivate-teams-not-ideas.html

...