Если все, что вы хотите знать, это разница, то самое простое (не самое быстрое!) Будет сделать хеш над ними и сравнить результаты. md5sum yourfile * .xml и посмотрите, какие записи идентичны.
Было бы более эффективно сравнивать их по-другому, но я не думаю, что есть стандартные инструменты для этого - однако, небольшая программа подойдет.
Open all files to be compared
Loop over the character indices
fetch character from each, compare
remove from list those which are not identical / group those who have the same
Итак, по первому отличию вы можете сузить область поиска в зависимости от того, что вы хотите сделать. Вычисление контрольной суммы / хэша будет делать это для всех файлов по умолчанию; Вы написали о больших файлах.
Пока что я бы пошел с md5sum (shasum, ...).