Веб-страницы для анализа почти дублированных страниц - PullRequest
1 голос
/ 09 марта 2012

Я пытаюсь построить Near Duplicate Analyzer для веб-страниц. Оттуда я могу получить похожие веб-страницы для ввода в эксперимент. (Сканирование поисковой системы по определенному запросу не показалось хорошим вариантом)

1 Ответ

0 голосов
/ 17 апреля 2012

Вот несколько идей:

  • Пресс-релизы с разных сайтов
  • Новостные статьи на разных сайтах
  • Википедия в текущей и более старых версиях (изменения - изменения)
  • Справочные страницы Unix на разных серверах
  • Интернет-RFC в различных форматах: текст, XML или HTML

Вот несколько примеров URL для RFC:

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...