Это сильно зависит от ваших данных.Смотрите Проклятие размерности для общих проблем.Недавнее исследование (Houle et al.) Показало, что вы не можете идти вразрез с числами.Там могут быть тысячи измерений и кластеры данных, и, конечно, есть даже одномерные данные, которые просто не кластеризуются.Это в основном вопрос сигнал-шум.Вот почему, например, кластеризация векторов TF-IDF работает довольно хорошо, особенно с косинусным расстоянием.
Но ключевой момент заключается в том, что вам сначала необходимо понять природу ваших данных.Затем вы можете выбрать подходящие функции расстояния, веса, параметры и ... алгоритмы.
В частности, вам также необходимо знать , что представляет собой кластер для вас.Существует много определений, в частности для многомерных данных.Они могут находиться в подпространствах, они могут или не могут произвольно вращаться, они могут перекрываться или нет (например, k-означает, не допускает перекрытия или подпространства).