Выбор исходных медоидов в алгоритме PAM - PullRequest
0 голосов
/ 19 февраля 2019

Я прочитал несколько разных статей о том, как PAM выбирает начальные медоиды, но я получаю противоречивые мнения.

Некоторые предлагают, чтобы k первых медоидов были выбраны случайным образом, в то время как другие предполагают, что алгоритм выбирает изначальноk репрезентативных медоидов в наборе данных (не поясняя, как происходит эта «репрезентативность»).Ниже я перечислил эти ресурсы:

Расчет Medoid

Недостатки алгоритма K-Medoid (PAM)

https://paginas.fe.up.pt/~ec/files_1112/week_06_Clustering_part_II.pdf

https://www.datanovia.com/en/lessons/k-medoids-in-r-algorithm-and-practical-examples/

1) Мой вопрос был бы, если бы кто-то мог объяснить более подробно, как алгоритм выбирает начальные k медоидов, поскольку из того, что я понимаю, различные начальные выборы могут привести к различным результатам,

2) Кроме того, является ли это одной из причин использования CLARA (помимо минимизации вычислительного времени и проблемы с памятью ОЗУ) - то есть для поиска медоидов путем повторной выборки, которые являются «оптимальными» вариантами?

Я использую R в скобках с функцией pam ().Открыт для других функций в других библиотеках, если есть лучшая альтернатива, о которой я не знаю.

1 Ответ

0 голосов
/ 20 февраля 2019

Чтение оригинальных источников.

К сожалению, позже написано много глупостей.

PAM состоит из двух алгоритмов:

  1. СТРОИТЬ, чтобы выбрать начальные медоиды ( не случайным образом)
  2. SWAP, чтобы сделать лучшие улучшения ( не стиль k-средних)

Алгоритм стиля k-средних работает намного хуже, чем PAM.Любое описание PAM, в котором не упоминаются эти две части, является неточным (и их довольно много ...)

Пакет R, похоже, использует настоящий алгоритм PAM:

По умолчанию, когда медоиды не указаны, алгоритм сначала ищет хороший начальный набор медоидов (это называется фазой build ).Затем он находит локальный минимум для целевой функции, то есть решение, такое, что нет единственного переключателя наблюдения с медоидом, который уменьшит цель (это называется swap phase)

CLARA определенно найдет худшие решения, чем PAM, так как он запускает PAM на образце, и я бы не нашел оптимальных медоидов в образце, тогда их невозможно найти.

...