У меня около 2 миллионов адресов с указанием широты и долготы, например (-36.63042942, 174.49784768).У меня есть другие детали, такие как номер улицы, название улицы и город.
Я хочу найти примерно 50 выборочных точек адреса в каждом городе, чтобы они были широко распространены в городе.Каждый город будет иметь около 200 до 2500 адресов.
Каковы некоторые вычислительно эффективные способы сделать это?
Текущее решение: я использую один подход, который не подходит.Я использую средства K, чтобы найти кластеры на основе широты и долготы в каждом городе.Количество кластеров присваивается как нет.образцов я бы хотел.Тогда я бы нашел ближайшую точку к центроидам и использовал бы ее в качестве образца.
Так выглядит центроид кластеров.Черная точка представляет точки данных и красные маркеры как центроид.
Так будут выглядеть мои простые точки, если я выберу их, как описано выше.Они будут просто фактическими точками, поскольку центроид может не представлять фактические точки.