ребята!Я работаю над проблемой поиска и пытаюсь оптимизировать свой набор данных.
У меня есть набор данных, состоящий из большого количества идентификаторов, скажем, 100 000, каждое из которых содержит различное количество изображений, в диапазоне от 5 до 5000Проблема в том, что некоторые изображения внутри идентификатора могут быть очень похожими, что приведет к плохому обобщению моего алгоритма поиска.
Таким образом, моя цель - , чтобы выбрать 5 ~ 10 изображений для каждого идентификатора с наибольшей дисперсией, т.е. я хочу, чтобы изображения в идентификаторе были как можно дальше друг от друга.Нормализованные функции для каждого изображения доступны.
У меня есть поиск по проблеме выбора данных, но большинство решений сосредоточено на измерении признаков, а не на измерении данных.
То, что я пробовал:
Я использовал среднее расстояние попарной корреляции для измерения среднего расстояния / дисперсии в ID.Основываясь на этом измерении, я попытался выбрать образцы изображений на основе среднего расстояния id-ID, которое представляет собой решение поиска по принципу Брюса:
В каждом идентификаторе повторите: удалите одно изображение, чтобы среднее значениеIn-ID расстояние оставшихся изображений максимально.До тех пор, пока не останется только 5 ~ 10 изображений, а среднее расстояние в ID выше некоторого порога.Наконец, идентификаторы с дисперсией, все еще ниже некоторого порога, отбрасываются.
Это наивное решение работает для идентификаторов, содержащих изображения ниже некоторого числа, скажем, 200. С идентификаторами, содержащими более 200 изображений, я попробовал случайную выборку / выборку на равном расстоянии/ минимальная кластеризация связующего дерева / k-означает кластеризацию (эти алгоритмы не имеют большого значения для распределения расстояний), чтобы выбрать 200 репрезентативных изображений и затем применить грубый поиск.
Примечание: алгоритмы кластеризации могут генерировать репрезентативные выборкииз набора изображений, но эти изображения являются центрами для каждого кластера, и, таким образом, отклонение in-ID не может быть улучшено.Я думаю, именно поэтому он имеет аналогичные результаты со случайной выборкой.
Мои вопросы:
Является ли среднее значение парной корреляции / косинус / евклидово расстояние хорошим измерением длядисперсия in-ID?
Поиск bruteforce прост, но не работает для идентификаторов с большим количеством изображений.Есть ли лучшее решение для генерирования выборок, которые максимизируют дисперсию in-ID?
Любые предложения могут быть оценены.Спасибо!