Существует ли какой-либо неконтролируемый алгоритм обучения, который не присваивает - PullRequest
0 голосов
/ 24 июня 2018

Традиционные подходы к обучению без учителя обычно должны назначать число кластеризации (K) перед вычислениями, но что, если я не знаю точное число K и исключаю k из алгоритма, я имею в виду, есть ли какой-нибудь алгоритм обучения без присмотракоторым не нужно присваивать k, поэтому мы можем автоматически получить k кластеризации?

Ответы [ 3 ]

0 голосов
/ 24 июня 2018

Вы можете попытаться определить количество кластеров по таким показателям, как Информационный критерий Акаике , Байесовский информационный критерий , используя Силуэт или Колено .Я также слышал, что люди говорят об автоматических методах кластеризации, основанных на самоорганизующихся картах ( SOM ), но вам придется провести там собственное исследование.

По моему опыту это обычнопросто сводится к исследованию данных с помощью разнообразных методов, таких как t-SNE и / или методов, основанных на плотности, таких как DBSCAN , а затем установка k либо вручную, либо с помощью подходящей эвристики.

0 голосов
/ 24 июня 2018

В теории графов существует иерархическая кластеризация .Вы можете выполнить кластеризацию снизу вверх или сверху вниз.

Снизу вверх

  • определить метрику расстояния (евклидово, манхэттенское ...)
  • начать с каждой точки в своем кластере
  • объединить два ближайших кластера

Существует три способа выбора ближайшего кластера:

  • полная ссылка ->два кластера с наименьшим максимальным попарным расстоянием
  • одиночная ссылка -> два кластера с наименьшим минимальным попарным расстоянием
  • среднее звено -> среднее расстояние между всеми попарными расстояниями

Кластеризация с одиночной связью может быть решена с помощью алгоритма минимального связующего дерева Крускалова, однако, хотя его легко понять, он работает за O (n ^ 3).Существует вариация алгоритма Прима для MST, которая может решить эту проблему за O (nˇ2).

Нисходящий или разделительный анализ Начать со всех точек в одном кластере и разделить кластеры в каждомитерация.

разделительный анализ .

Существуют другие алгоритмы кластеризации, которые вы можете использовать в Google, некоторые уже упоминались в других ответах.Я не использовал других, поэтому я оставлю это.

0 голосов
/ 24 июня 2018
  • Распространение сродства
  • DBSCAN
  • Среднее смещение

Для получения более подробной информации, смотрите документацию scikit-learn здесь .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...