утилита удаления / обнаружения / различия шаблонов для HTML и другого текста - PullRequest
0 голосов
/ 12 января 2011

Я помню, как читал некоторое время назад на каком-то случайном веб-сайте о программе, которая просматривала бы несколько страниц на HTML-сайте и выявляла различия / сходства между страницами, чтобы автоматически определять, какие части были шаблоном шаблона, а какие - новыми.контент, а затем на его основе автоматически выплевывают только те части, которые являются контентом.

К сожалению, я не запомнил достаточно подробностей об этой утилите, чтобы найти ее в Google, поэтому мне интересно, если кто-нибудь из васребята наткнулись на что-то подобное, и МОГУТ вспомнить название.

Спасибо.

1 Ответ

1 голос
/ 12 января 2011

Закон Мерфи (или это какой-то другой закон) нарушен, и я нашел его через несколько мгновений после того, как сдался и опубликовал этот вопрос.Проект, о котором я думаю, это:

http://code.google.com/p/boilerpipe/

Спасибо.

...