Кластеризация (создание чанков) для уменьшения размера проблемы для DBSCAN может быть выполнена, например, при наличии областей с перекрывающимися регионами.
Размер перекрывающихся областей должен соответствовать вашей проблеме.
Найдите разумный размер для кусков вашей проблемы и перекрывающейся области.
Затем сшейте результаты вручную, повторяя и сравнивая кластеры, найденные в перекрывающихся областях.
Необходимо проверить, присутствуют ли элементы в одном кластере и в других чанках.
Возможно, вам придется применить некоторые параметры сшивания, например, если некоторое количество элементов находится в кластерах в двух разныхкуски - это один и тот же кластер.
Я только что видел this :
Очевидно, проблема в нестандартной реализации DBSCAN в scikit-learn.DBSCAN не нужна матрица расстояний.
Но это, вероятно, было исправлено лет назад.
Какую реализацию вы используете?