Исключение точек данных на основе близости в диаграмме рассеяния - PullRequest
0 голосов
/ 11 марта 2020

Я пытаюсь создать представление амстердамских каналов на основе очень большого набора данных, отправляемых через AIS. Поскольку AIS иногда калибруется неправильно, некоторые координаты не на реальном канале, а скорее на городских структурах. К счастью, это случается относительно мало раз. В результате эти точки данных не в непосредственной близости от других точек данных / кластеров точек данных. Таким образом, я хочу исключить эти точки данных, которые не имеют «соседа» с запасом (скажем, 5 метров в реальной жизни) в большинстве питонов c способом . Кто-нибудь знает, как подойти к этой проблеме? Мои данные - простой pandas фрейм данных:

              lng        lat
0        4.962218  52.362260
1        4.882198  52.406013
2        4.918583  52.335535
3        4.908185  52.381353
4        5.020983  52.277188
...           ...        ...
2249835  4.979960  52.352660
2249836  4.914533  52.334980
2249837  4.856630  52.401977
2249838  4.971418  52.357525
2249839  5.042353  52.402142

[2211095 rows x 2 columns]

, и карта в настоящее время выглядит следующим образом, я выделил примеры координат, которые я хочу отфильтровать / исключить:

Coordinates (examples) in need of excluding highlighted in yellow

...