есть ли библиотека для ruby или php, которая может анализировать html-страницы и извлекать уникальные данные, сравнивая их с другими похожими страницами .... следует использовать какой-то вид интеллектуального анализа текста, чтобы определить, какие тексты с большей вероятностью являются помехами и повторяемостью тогда как другие тексты более уникальны и полезны ...