Сортировка набора матриц - PullRequest
0 голосов
/ 23 мая 2019

У меня много изображений (около 10000). Моя цель состоит в том, чтобы сделать бинарные исследования на множестве матриц двумерными и исследовать дубликаты изображений и удалить эти изображения. Но существует ли концепция матрица важнее другой матрицы? Как я могу решить? Альтернатива состоит в том, чтобы сделать исследование последовательным, но много неэффективным.

1 Ответ

0 голосов
/ 28 мая 2019

@ Предложение Мики показалось забавным упражнением, поэтому я создал реализацию, которую вы можете использовать.
Подробнее о хешировании здесь

import hashlib, os, cv2
# location of images
path = '.'
# create list that will hold the hashes
all_hashes = []

# get and iterate all image paths 
all_files = os.listdir(path)
for f in all_files:
    # check image extension
    name, ext = os.path.splitext(f)
    if ext == '.jpg':
        # open image
        img = cv2.imread(f)
        # hash the image and get hex representation
        hash = hashlib.md5(img).hexdigest()
        # check if hash already exists, if not then add it to the list
        if hash in all_hashes:
            print('Already exists: ' + f)
        else:
            all_hashes.append(hash)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...