Я пытаюсь найти выбросы с помощью кластерного анализа.
Размер данных:> 50 миллионов записей
Всего столбцов: 50.[39 Категориальных, 12 числовых]
Домен: Здравоохранение
Задача:
- около 5-6 категориальных переменных имеют более 10000 возможных значений
- около 12-14 имеют около категории возможных
1.Является ли кластеризация правильным способом поиска выбросов в этом сценарии?
2.Каковы наилучшие методы конструирования элементов [Выбор элементов и уменьшение размерности] в этом случае?
3.Рекомендуется ли делать kmeans путем преобразования всех категориальных в числовые, если да, какие-либо идеи и указатели на это.
4.Рекомендуется ли делать К-прототипы?Если да, то достаточно ли он надежен / зрел для работы?И любые теории и указатели на базу кода приветствуются.
K-прототипы: https://github.com/nicodv/kmodes/blob/master/kmodes/kprototypes.py
Любые другие примеры кодов помогут
Поиск идей и направления подходаэта проблема, используя Python для кодирования