У меня достаточно большой набор (r, g, b) -цветных точек данных с (x, y) -координатами, который выглядит следующим образом:
Прежде чем передать их в мою базу данных, я бы хотел автоматически определить все точечные кластеры (большинство из которых выглядят как линии) и присвоить категорию каждой цветной точке в зависимости от того, к какому кластеру они принадлежат.
В соответствии с дорожной картой scikit-learn Мне следовало бы использовать либо модели смешанных сдвигов, либо гауссову смесь, но я хотел бы знать, есть ли какое-либо доступное решение, которое также будет учитывать, что соседние точки, которые общие схожие цвета чаще принадлежат к одному кластеру.
У меня есть доступ к графическому процессору, поэтому приветствуется любое решение, даже если оно основано на глубоком обучении.
Я попытался ответить @ mcdowella , и он работал на удивление хорошо. Я проверил его по многомерной версии этих точек (которые были сгенерированы с помощью T-SNE) с помощью реализации HDBSCAN Robust Single Linkage, и она аппроксимировала многие линии без какой-либо настройки параметров.