Набор данных для нормализации URL - PullRequest
0 голосов
/ 02 февраля 2011

Я работаю над проектом по нормализации URL-адресов (т. Е. Должны быть идентифицированы разные URL-адреса, которые сопоставляются с одной и той же веб-страницей, а избыточность должна быть уменьшена как для поисковой системы)как набор данных, содержащий различные URL-адреса, чтобы проверить мой метод.Пожалуйста, предоставьте ссылки для наборов данных нормализации.

Я реализую этот проект на C #, и я хотел бы получить ваши предложения.Заранее спасибо.

1 Ответ

1 голос
/ 05 февраля 2011

Поскольку вы спросили I'd like your suggestions, оставив ваш вопрос очень открытым и, следовательно, открытым для того, какие предложения вы можете получить, я пойду дальше и дам вам свои предложения. Хотя я признаю, что не уверен на 100%, какую проблему вы хотите решить? Вы запрашиваете предложение по программе / коду? Стратегия, как настроить такой проект? или вы хотите собрать вдохновение / идею и улучшить существующий рабочий процесс? Если вы ищете эту третью вещь, я бы посоветовал взглянуть на два сценария, вдохновленные лекцией, которую однажды прочитал один из моих учителей по искусственному интеллекту. Давайте на мгновение погрузимся в то, как муравьиные колонии организуются:

  • нисходящий подход: фантазия Представьте себе королеву в антологии, предписывающую каждому муравью их маршруты в подколонии и тем самым нормализующие множественные маршруты, по которым все разные муравьи обязуются идти в том же месте, кажется, вы хотите сгруппировать муравьев вместе и позволить каждой группе использовать только 1 маршрут для достижения своих целей и удалить возможные дублирующие маршруты. Это один из способов сделать их маршруты более эффективными. На самом деле муравьи на самом деле работают по-другому:

  • восходящий подход: реальность: Один муравей не имеет большого значения, но когда целая муравьиная колония изучает, организация раскрывает. Это потому, что сами муравьи следуют следам других муравьев, следуя друг за другом и, в конце концов, находят путь к гнезду. Таким образом, ум не должен исходить сверху / из центральной базы данных, но чуть-чуть интеллекта, встроенного в каждого муравья, сделает один и тот же путь повторно используемым. >> Таким образом, вы можете подумать о построении вашей техники нормализации внутри каждой гиперссылки, которую нужно нормализовать.

Я надеюсь, что это может дать вам предложения, которые вы хотели, в противном случае, если ваш вопрос не был основан на стратегии, а был связан с конкретной проблемой кода, задайте вопрос с программным кодом, который часто гораздо проще решить, чем найти лучшую стратегию. Удачи! Мои 2 цента.

...