Я пытаюсь построить Near Duplicate Analyzer для веб-страниц. Оттуда я могу получить похожие веб-страницы для ввода в эксперимент. (Сканирование поисковой системы по определенному запросу не показалось хорошим вариантом)
Вот несколько идей:
Вот несколько примеров URL для RFC: