Есть ли библиотека (для Java), которая сравнивает сходство между веб-страницами (HTML, DOM сходство)?
В моем приложении я хочу классифицировать ссылки сайта.
Например:
group 1: Product detail page
group 2: Category page
(для сайтов интернет-магазинов и т. Д.).
Для такой классификации html структура (dom) сходство - лучший способ, как мне кажется. Пожалуйста, помогите относительно этого.