Я столкнулся с проблемой при обнаружении аномалий.Мы знаем, что расстояние измеряется между разными экземплярами.Теперь мой набор данных содержит категориальные данные.У меня есть 3 варианта.Во-первых, я удаляю категориальные функции, но думаю, что в категориальных функциях есть полезные сообщения.Во-вторых, я преобразую категориальные данные в числовое значение, используя LabelEncoder из sklearn, однако я думаю, что преобразование не может соответствовать измерению расстояния.В-третьих, я использую OneHotEncoder из sklearn для обработки категориальных функций, однако я думаю, что размеры функций увеличиваются и это влияет на кластеризацию.