Я работаю над созданием индекса URL-адресов. Цель состоит в том, чтобы создать и сохранить структуру данных, которая будет иметь ключ в качестве URL-адреса домена (например, www.nytimes.com), а значение будет представлять собой набор функций, связанных с этим URL-адресом. Я ищу ваши предложения для этого набора функций. Например, я хотел бы хранить www.nytimes.com следующим образом:
[www.nytimes.com: [lang: en, alexa_rank: 96, content_type: news, spam_probability: 0.0001 и т. Д.]
Почему я это строю? Итак, конечная цель состоит в том, чтобы сделать некоторые интересные вещи с этим индексом, например, я могу сделать кластеризацию по этому индексу и найти интересные группы и т. Д. У меня есть целый текст, который был сгенерирован целыми паролями URL за период целого много времени :) Так что данные не проблема.
Любые предложения приветствуются.