Кластеризация географических точек с неточностью - PullRequest
0 голосов
/ 06 мая 2020

У меня есть набор данных из 300 миллионов географических точек с дополнительной информацией, такой как описание. Некоторые из этих точек расположены в одном месте и должны быть сгруппированы вместе. К сожалению, координаты не идентичны на 100% и могут отличаться на несколько метров.

Как я могу эффективно сгруппировать / сгруппировать их вместе, чтобы я мог с высокой вероятностью сказать, что они находятся в одном месте?

Позже появится возможность выполнить анализ каждой из точек этих местоположений.

1 Ответ

0 голосов
/ 06 мая 2020

Лучше всего разделить все ваши точки на более мелкие наборы на основе координат широты и долготы, просто наложив 10x10 или 100x100 me sh на область, из которой вы захватили точки.

Один раз готово, у вас будет около нескольких тысяч или точек в каждой ячейке me sh, что можно обрабатывать традиционными методами.

Разделение на me sh будет линейным O (N), где N - это количество точек, и сортировка каждой ячейки не займет много времени по сравнению с применением алгоритмов кластеризации ко всему набору данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...