Я пытаюсь выполнить DBSCAN на 18 миллионах точек данных, пока только 2D, но надеюсь на go до 6D. Я не смог найти способ запустить DBSCAN на этом количестве пунктов. Самый близкий, который я получил, был 1 миллион с ELKI, и это заняло час. Я использовал Spark и раньше, но, к сожалению, в нем нет DBSCAN.
Поэтому мой первый вопрос: может ли кто-нибудь порекомендовать способ запуска DBSCAN для такого большого количества данных, вероятно, распределенным способом?
Далее, мои данные таковы, что ~ 85% находятся в одном огромном кластере (обнаружение аномалий). Единственная техника, которую я смог придумать, чтобы позволить мне обрабатывать больше данных, - это заменить большой кусок этого огромного кластера одной точкой данных таким образом, чтобы он мог по-прежнему достигать всех своих соседей (удаленный кусок меньше, чем epsilon).
Может ли кто-нибудь дать какие-либо советы, правильно ли я это делаю или есть ли лучший способ уменьшить сложность DBSCAN, когда вы знаете, что большая часть данных находится в одном кластере, сосредоточенном вокруг (0.0,0.0 )