K-средства на основе результатов PCA. Как найти дискриминантную функцию? - PullRequest
0 голосов
/ 25 марта 2020

Возможно, название этого поста не совсем подходит для express моего сомнения, даже если вопрос остается без ответа, несмотря на мои исследования.

Я не буду публиковать воспроизводимый пример, потому что это скорее теоретический вопрос, а не вопрос исполнения.

Моя база данных состоит из ряда измерений параметров гемодинамики c у пациентов, находящихся на интенсивной терапии. Все эти меры являются непрерывными переменными. Число переменных больше, чем количество оцениваемых лиц.

Цель этого исследования - провести кластерный анализ и найти уравнение, способное описать разделение кластеров. Для этой цели был проведен PCA для оценки важности каждой переменной для большей части изменчивости данных. Чтобы уменьшить количество переменных, была принята рекомендация Джоллиффа (1992), а затем были отброшены переменные, которые показали наибольшую корреляцию с компонентами с наименьшими отклонениями.

Кластерный анализ был выполнен с использованием переменных, указанных в PCA как ответственный за большую часть изменчивости данных ( 3 переменных были определены ). Идеальное количество кластеров (k) было определено с использованием метода Силуэт, а внутренняя стабильность каждого кластера была проверена с использованием значений Jaccard. После определения количества кластеров и центроида индивидуумы были разделены на группы в соответствии с критериями близости с использованием алгоритма k-средних.

При сопоставлении кластеров с категориальной переменной (здоровой или нездоровой) переменные используемые для кластерного анализа были очень точными (> 98%). Следующий очевидный вопрос: как найти дискриминантную функцию или оценку для классификации кластеров? ( и, следовательно, правильно прогнозировать статус «здоровый» или «нездоровый» )

. Для этого я использовал линейный дискриминантный анализ с использованием кластеров в качестве цели для дискриминации. В результате была найдена дискриминантная функция и ее дискриминационное предельное значение.

Мой вопрос: несмотря на логику c, есть ли теоретическое противоречие для этого выполнения? Я ничего не нашел об этом, но я не уверен в этом.

...