Подходящий метод для кластеризации порядковых переменных - PullRequest
0 голосов
/ 03 июля 2018

Я читал все (или большинство) ранее заданных вопросов, но не смог найти ответ на мою проблему ...
У меня есть 13 переменных, измеренных по порядковой шкале (которые представляют каналы передачи знаний), которые я хочу кластеризовать (HCA) для следующего бинарного логистического регрессионного анализа (включая все 13 переменных невозможно из-за размера выборки N = 208). Факторный анализ кажется неуместным из-за уровня шкалы. Я использую SPSS (но также попробовал R).

Вопросы:
1: Правильно ли я использую меру хи-квадрат для данных счета вместо евклидового расстояния (в квадрате)?
2. Как я могу обосновать выбор метода? Я пробовал один, полный, Уорд и средний, но все дают разные результаты, и я не могу найти источник, на котором можно основывать свое решение.

Заранее большое спасибо!

1 Ответ

0 голосов
/ 04 июля 2018

Ответ 1: Поскольку переменные имеют порядковый масштаб, тест хи-квадрат является подходящим тестом измерения. Потому что «критерий хи-квадрат предназначен для анализа категориальных данных. Это означает, что данные были подсчитаны и разделены на категории. Он не будет работать с параметрическими или непрерывными данными (такими как высота в дюймах)». Ссылка .

Опять же, порядковые масштабированные данные - это, по существу, данные подсчета или частоты, которые вы можете использовать обычную параметрическую статистику: среднее значение, стандартное отклонение и т. Д. Или непараметрические тесты, такие как ANOVA или Mann-Whitney U test для сравнения 2 групп или Kruskal–Wallis H test для сравнения три или более групп.

Ответ 2: В проблеме кластеризации выбор метода расстояния зависит только от типа переменных. Я рекомендую вам прочитать эти подробные сообщения 1 , 2 , 3

...