У меня есть некоторые данные, собранные с помощью онлайн-опроса. Поэтому в данных нет классов / меток для оценки результатов кластеризации. Я пытаюсь выполнить кластеризацию, чтобы объединить участников в несколько групп для выполнения другой задачи.
В данных у меня есть 10 атрибутов, таких как: Age
, Gender
, et c. И 111 примеров или точек данных.
Я впервые выполняю кластеризацию, и было трудно найти потенциальные кластеры в данных.
Вот шаги, которые я выполнил в Weka:
- Я пытался кластеризовать данные, используя все атрибуты, все типы кластеризации в Weka (например, cobweb, EM .. et c) и с использованием разных номеров кластеров (1-10). И когда я визуализирую кластеры, они не имеют никакого смысла, и данные широко распространяются между осями x и y.
- Я применил PCA и выбрал различное количество комбинаций атрибутов в соответствии с рангами, полученными в PCA. , Лучший результат кластеризации был получен с использованием k-средних и только с 2 комбинациями атрибутов, и число выбранных кластеров было 3, а начальное число было 7 (извините, я понятия не имею, что такое начальное число).
Мои вопросы:
- Являются ли шаги, которые я выполнил для кластеризации данных, правильными? Если нет, пожалуйста, дайте мне совет / с
- Считается ли это хорошим результатом кластеризации?
- Как я могу оптимизировать или улучшить свои кластеры?
- Что подразумевается под семенем в Weka кластеризация?