Новостной портал компании имеет два сервера (ОС = Centos 6):
Первый сервер № 1 имеет около 1 миллиона изображений (.jpg, .png), а сервер № 2 получил почти такое же количество - 1 миллион изображений. Некоторые из них являются идентичными дубликатами, некоторые - дубликатами с измененным размером, некоторые с размытостью, некоторые без размытия, некоторые - совершенно уникальные изображения. Имена файлов в основном тоже разные.
Миссия - объединить два медиа-каталога серверов в один. После объединения дубликаты должны быть восстановлены (чтобы освободить хранилище).
Я провел несколько тестов с Imagemagick compare -metric RMSE
, но я подумал, что на сравнение каждого файла с каждым файлом на двух серверах уйдет много времени. Таким образом, будет 1 миллион x 1 миллион = 1 триллион операций, это займет много времени ...
Есть предложения?