Предположим, что одно изображение с различными разрешениями из одного хоста имеет более одной копий.
Вна этапе метапоиска, я хочу проверить, имеют ли 2 изображения одинаковые имена , но не тривиальные имена (например, image.jpg, photo.jpg ...).В этом случае я хочу включить только изображение с более высоким разрешением.
Пример: поиск по «городу»
https://znews -photo.zadn.vn / w480 / Загружено/lerl/2017_10_07/DJI_005701_zing.jpeg
https://znews -photo.zadn.vn / Загружено / lerl / 2017_10_07 / DJI_005701_zing.jpeg
Theпервый не должен быть возвращен.
Это назначение работы от команды веб-поиска, поэтому я очень беспокоюсь о производительности.
Мой текущий подход:
*) Чтобы избежать тривиальных имен, повторяйте тестовые запросы для поиска изображений, подсчитайте количество появлений каждого токена с разных URL-адресов после токенизации с помощью "/",и вручную выбрать наиболее появляющиеся токены в URL-адресах, которые похожи на «фото», «рисунок», «фон» и т. д. В конце концов у меня будет набор тривиальных имен.
*) Для изображений с одинаковым именем каждое изображение получает свое dHash , его разрешение, для каждой пары изображений с разницей dHash меньше, чем определенное пороговое значение, я сбрасываю изображение с меньшим разрешением.
Редактировать: После консультации с моим менеджером я понял, что неправильно понял требования.Я должен работать только над URL-адресами без доступа к реальным изображениям (что было бы слишком дорого).В приведенном выше примере я должен быть в состоянии отказаться от первого изображения на основе разницы URL-адресов двух.Кроме того, в результате ожидаемая точность не высока, все> 85% должно быть приличным.
Я очень ценю любые идеи / идеи по улучшению моего текущего подхода.