Если вы хотите, чтобы две точки на расстоянии 0,6 находились в одном и том же кластере, то вам, возможно, придется использовать больший эпсилон (который является пороговым значением расстояния).На уровне 0,6 они должны быть в одном кластере.
Поскольку word2vec обучается с точечными произведениями, было бы более целесообразно использовать точечное произведение в качестве сходства и / или косинусного расстояния.
НоВ общем, я сомневаюсь, что вы сможете получить хорошие результаты.То, как векторы предложений строятся путем усреднения векторов word2vec, убивает слишком много сигнала и добавляет много шума.А поскольку данные являются многомерными, все такие шумы являются проблемой.