Выборка адресов из базы данных адресов, максимизирующая физическое распространение - PullRequest
0 голосов
/ 11 декабря 2018

У меня около 2 миллионов адресов с указанием широты и долготы, например (-36.63042942, 174.49784768).У меня есть другие детали, такие как номер улицы, название улицы и город.

Я хочу найти примерно 50 выборочных точек адреса в каждом городе, чтобы они были широко распространены в городе.Каждый город будет иметь около 200 до 2500 адресов.

Каковы некоторые вычислительно эффективные способы сделать это?

Текущее решение: я использую один подход, который не подходит.Я использую средства K, чтобы найти кластеры на основе широты и долготы в каждом городе.Количество кластеров присваивается как нет.образцов я бы хотел.Тогда я бы нашел ближайшую точку к центроидам и использовал бы ее в качестве образца.

Так выглядит центроид кластеров.Черная точка представляет точки данных и красные маркеры как центроид.

enter image description here

Так будут выглядеть мои простые точки, если я выберу их, как описано выше.Они будут просто фактическими точками, поскольку центроид может не представлять фактические точки.enter image description here

...