Вам придется преобразовать ваши данные в числовую форму. Существуют различные способы сделать это, два из них:
- использовать векторы количества признаков (обычно, например, в текстовой категоризации)
- использует представление в горячем виде, где категориальная особенность, которая может принимать n различных значений, представлена в виде строки из n битов, только с i бит устанавливается, если объект имеет значение i в разрешенном диапазоне.
Обе являются очень распространенными преобразованиями, которые делают многие программы машинного обучения под капотом. Кроме того, вы можете поэкспериментировать с метрикой, отличной от евклидовой. Особенно с горячим представлением, но в зависимости от данных, может быть более подходящей норма L1 (расстояние от Манхэттена до городского квартала).
Кроме того, просто примените данные формулы к преобразованному набору данных.