Основное различие в машинном обучении - это моделирование "под наблюдением" и "без присмотра".
Обычно слова «статистическая классификация» относятся к контролируемым моделям, но не всегда.
При использовании контролируемых методов в обучающем наборе есть метка «наземная правда», которую вы строите для прогнозирования модели. Когда вы оцениваете модель, цель состоит в том, чтобы предсказать наилучшую догадку (или распределение вероятностей) истинной метки, которой у вас не будет во время оценки. Часто есть метрика производительности, и совершенно ясно, что правильный ответ против неправильного.
Неуправляемые методы классификации пытаются объединить большое количество точек данных, которые могут сложным образом варьироваться в меньшее количество «похожих» категорий. Данные в каждой категории должны быть похожи в каком-то «интересном» или «глубоком» смысле. Поскольку нет «наземной правды», вы не можете оценить «правильно или неправильно», но «больше» против «меньше» интересно или полезно.
Аналогичным образом, во время оценки вы можете поместить новые примеры в потенциально один из кластеров (четкая классификация) или дать какое-то взвешивание, количественно определяющее, насколько сходные или разные выглядят как «архетип» кластера.
Таким образом, в некоторых случаях контролируемые и неконтролируемые модели могут давать что-то, что является «предсказанием», предсказанием метки класса / кластера, но по сути они различны.
Зачастую целью неконтролируемой модели является предоставление более интеллектуальных и мощно компактных входов для последующей контролируемой модели.