Существует много вариантов, но если вас интересует вероятность того, что новая точка данных принадлежит конкретной смеси, я бы использовал вероятностный подход, такой как моделирование смеси Гаусса, либо по максимальной вероятности, либо по Байесу.
Оценка максимального правдоподобия моделей смесей реализована в Matlab .
Ваше требование о том, что количество компонентов неизвестно, делает вашу модель более сложной. Доминирующий вероятностный подход заключается в том, чтобы предварительно поместить процесс Дирихле на распределение смеси и оценить ее по некоторому байесовскому методу. Например, см. эту статью о моделях бесконечной гауссовой смеси . Модель смеси DP даст вам вывод о количестве компонентов и компонентах, к которым относятся все элементы, и это именно то, что вам нужно. В качестве альтернативы вы можете выполнить выбор модели по количеству компонентов, но это, как правило, менее элегантно.
Существует много моделей моделей смесей DP, но они могут быть не такими удобными. Например, вот реализация Matlab .
Ваш график показывает, что вы являетесь пользователем R. В этом случае, если вы ищете готовые решения, ответ на ваш вопрос лежит в этом представлении задач для кластерного анализа .