ИМХО, лучшим выбором будет использование взаимной информации в качестве метрики. Поскольку это все еще очень абстрактная проблема, я не уверен в деталях ее расчета.
Позвольте мне пояснить, почему взаимная информация является хорошей мерой. Давайте предположим, что изображение состоит из цветов a, b, c и 4 (ровно четыре цвета). И другое изображение точно такое же, за исключением того, что a заменяется на e, b-> f, c-> g и d-> h. Если вы используете какие-либо другие метрики (например, корреляцию), эти два изображения кажутся несхожими, но взаимная информация показывает, что эти два изображения совместно используют одну и ту же информацию (только кодируются по-разному).
Как рассчитать взаимную информацию: во-первых, вам необходимо выровнять изображения (что является сложной проблемой, вы можете получить разумное решение, преобразовав изображение в смещениях, масштабировании и повороте). Как только изображения выровнены, у вас есть отношение пиксель к пикселю. Можно предположить, что каждый пиксель независим, и рассчитать I (X; Y), где X - это пиксель от первого изображения, а Y - от второго. Это самое простое решение, но можно предположить, что более сложные отношения, например: I (X1, ..., Xk; Y1, ..., Yk), где X1, ..., Xk - смежные пиксели, а Yis соответствуют их коллеги.