Если у меня есть, скажем, 20 HTML-страниц, и я хочу извлечь общие / похожие части документов, каковы эффективные способы сделать это?
Так, скажем, для StackOverflow, сравнивая 10 страниц, я бы обнаружил, что верхняя панель и главная строка меню одинаковы на каждой странице, поэтому я могу извлечь их.
Кажется, мне понадобится либо программа diff, либо несколько сложных регулярных выражений, но предположим, что я заранее не знаю структуры page / text / html.
Возможно ли это?