Джава.Сравните сходство структуры веб-страниц (dom). - PullRequest
6 голосов
/ 17 января 2012

Есть ли библиотека (для Java), которая сравнивает сходство между веб-страницами (HTML, DOM сходство)?

В моем приложении я хочу классифицировать ссылки сайта. Например: group 1: Product detail page group 2: Category page (для сайтов интернет-магазинов и т. Д.).

Для такой классификации html структура (dom) сходство - лучший способ, как мне кажется. Пожалуйста, помогите относительно этого.

1 Ответ

1 голос
/ 10 мая 2012

Не совсем то, что вы спрашиваете, но если HTMl является действительным XML, вы можете использовать XMLUnit , очень просто , чтобы сравнить с ним сходство.

...