В моем проекте я пытаюсь предсказать класс с 3 возможными значениями. Перед применением любого алгоритма классификации я использовал кластеризацию и заметил, что для k = 3 существует равное распределение этих трех значений целевого класса в каждом кластере , см. Здесь . Означает ли это, что значение для класса будет трудно предсказать, потому что экземпляры с определенным значением (я пробовал также и для других значений k) не очень похожи друг на друга? Мой набор данных имеет 150 функций и 20 000 экземпляров.