Алгоритм кластеризации K-средних - это очень известный алгоритм в науке о данных. Этот алгоритм предназначен для разделения n
наблюдений на k
кластеров. В основном это включает в себя:
- Инициализация:
K
означает (т.е. центроид) генерируется случайным образом.
Назначение: формирование кластеров, связывая каждое наблюдение с ближайшим центроидом.
Обновление кластера: Центроид вновь созданного кластера становится средним.
Присвоение и Обновление происходят до схождения.
Окончательный результат состоит в том, что сумма квадратов ошибок минимизируется между точками и их соответствующими центроидами.
РЕДАКТИРОВАТЬ:
Почему К означает
- K-означает, что вычислительно быстрее и эффективнее по сравнению с другими алгоритмами обучения без контроля. Не забывайте, что сложность времени линейна.
- Создает кластер более высокого уровня, чем иерархический кластер. Большее количество кластеров помогает получить более точный конечный результат.
- Экземпляр может изменить кластер (переместиться в другой кластер) при повторном вычислении центроида.
- Хорошо работает, даже если некоторые из ваших предположений нарушены.
что он действительно делает при определении якорного ящика
- Это создаст тысячи якорей (то есть кластеров в k-средних) для каждого предиктора, которые представляют форму, местоположение, размер и т. Д.
- Для каждого якорного блока рассчитайте, у какого ограничивающего прямоугольника объекта наибольшее перекрытие, деленное на неперекрытие. Это называется пересечением над объединением или распиской.
- Если самый высокий IOU превышает 50% (это можно настроить), скажите якорному ящику, что он должен обнаружить объект, у которого самый высокий IOU.
- В противном случае, если IOU больше 40%, скажите нейронной сети, что истинное обнаружение неоднозначно, и не учитесь на этом примере.
- Если самый высокий IOU составляет менее 40%, то следует прогнозировать, что объекта нет.
Спасибо!