Как выбрать образцы из набора данных с наибольшей дисперсией? - PullRequest
0 голосов
/ 01 июля 2019

ребята!Я работаю над проблемой поиска и пытаюсь оптимизировать свой набор данных.

У меня есть набор данных, состоящий из большого количества идентификаторов, скажем, 100 000, каждое из которых содержит различное количество изображений, в диапазоне от 5 до 5000Проблема в том, что некоторые изображения внутри идентификатора могут быть очень похожими, что приведет к плохому обобщению моего алгоритма поиска.

Таким образом, моя цель - , чтобы выбрать 5 ~ 10 изображений для каждого идентификатора с наибольшей дисперсией, т.е. я хочу, чтобы изображения в идентификаторе были как можно дальше друг от друга.Нормализованные функции для каждого изображения доступны.

У меня есть поиск по проблеме выбора данных, но большинство решений сосредоточено на измерении признаков, а не на измерении данных.

То, что я пробовал:

Я использовал среднее расстояние попарной корреляции для измерения среднего расстояния / дисперсии в ID.Основываясь на этом измерении, я попытался выбрать образцы изображений на основе среднего расстояния id-ID, которое представляет собой решение поиска по принципу Брюса:

В каждом идентификаторе повторите: удалите одно изображение, чтобы среднее значениеIn-ID расстояние оставшихся изображений максимально.До тех пор, пока не останется только 5 ~ 10 изображений, а среднее расстояние в ID выше некоторого порога.Наконец, идентификаторы с дисперсией, все еще ниже некоторого порога, отбрасываются.

Это наивное решение работает для идентификаторов, содержащих изображения ниже некоторого числа, скажем, 200. С идентификаторами, содержащими более 200 изображений, я попробовал случайную выборку / выборку на равном расстоянии/ минимальная кластеризация связующего дерева / k-означает кластеризацию (эти алгоритмы не имеют большого значения для распределения расстояний), чтобы выбрать 200 репрезентативных изображений и затем применить грубый поиск.

Примечание: алгоритмы кластеризации могут генерировать репрезентативные выборкииз набора изображений, но эти изображения являются центрами для каждого кластера, и, таким образом, отклонение in-ID не может быть улучшено.Я думаю, именно поэтому он имеет аналогичные результаты со случайной выборкой.

Мои вопросы:

Является ли среднее значение парной корреляции / косинус / евклидово расстояние хорошим измерением длядисперсия in-ID?

Поиск bruteforce прост, но не работает для идентификаторов с большим количеством изображений.Есть ли лучшее решение для генерирования выборок, которые максимизируют дисперсию in-ID?

Любые предложения могут быть оценены.Спасибо!

...