Получите форматированный вывод обоих сайтов (здесь мы используем w3m , но lynx также может работать):
w3m -dump http://google.com 2>/dev/null > /tmp/1.html
w3m -dump http://google.de 2>/dev/null > /tmp/2.html
Затем используйте wdiff , это может дать вам процент того, насколько похожи эти два текста.
wdiff -nis /tmp/1.html /tmp/2.html
Также легче увидеть различия, используя colordiff .
wdiff -nis /tmp/1.html /tmp/2.html | colordiff
Выдержка из вывода:
Web Images Vidéos Maps [-Actualités-] Livres {+Traduction+} Gmail plus »
[-iGoogle |-]
Paramètres | Connexion
Google [hp1] [hp2]
[hp3] [-Français-] {+Deutschland+}
[ ] Recherche
avancéeOutils
[Recherche Google][J'ai de la chance] linguistiques
/tmp/1.html: 43 words 39 90% common 3 6% deleted 1 2% changed
/tmp/2.html: 49 words 39 79% common 9 18% inserted 1 2% changed
(он фактически вывел google.com на французский язык... забавно)
Значения common% одинаковы для обоих текстов.Кроме того, вы можете легко увидеть различия по слову (а не по строке, которая может быть беспорядком).