Существует какой-то ручной анализ, связанный с любым типом постановки задачи.Из того, что вы написали, нет ясности в том, что именно является постановка проблемы.Когда вы даже не уверены в том, какими будут данные, сначала вы должны посмотреть на все особенности данных, некоторую базовую статистику данных, нулевые значения, любые дубликаты, надлежащие типы данных и т. Д., А затем сначала очиститьданные, и после этого только вы можете применять любые методы ML, чтобы получить некоторое представление.
Переход к K-Means, который является обучением без присмотра, есть несколько методов, чтобы решить, какой «k» выбрать.Изучите «метод локтя», чтобы выбрать k.В вашем случае K-means может помочь в некоторой правильной сегментации данных для первоначального анализа данных.
Я не могу больше комментировать, что делать, поскольку я не знаю данных.