Кластеризация с использованием смешанных переменных, с категориальными переменными, имеющими около 10000 категорий - PullRequest
0 голосов
/ 28 февраля 2019

Я пытаюсь найти выбросы с помощью кластерного анализа.

Размер данных:> 50 миллионов записей

Всего столбцов: 50.[39 Категориальных, 12 числовых]

Домен: Здравоохранение

Задача:

  • около 5-6 категориальных переменных имеют более 10000 возможных значений
  • около 12-14 имеют около категории возможных

1.Является ли кластеризация правильным способом поиска выбросов в этом сценарии?

2.Каковы наилучшие методы конструирования элементов [Выбор элементов и уменьшение размерности] в этом случае?

3.Рекомендуется ли делать kmeans путем преобразования всех категориальных в числовые, если да, какие-либо идеи и указатели на это.

4.Рекомендуется ли делать К-прототипы?Если да, то достаточно ли он надежен / зрел для работы?И любые теории и указатели на базу кода приветствуются.

K-прототипы: https://github.com/nicodv/kmodes/blob/master/kmodes/kprototypes.py

Любые другие примеры кодов помогут

Поиск идей и направления подходаэта проблема, используя Python для кодирования

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...