В алгоритме кластеризации K-Means (sklearn) как переопределить евклидово расстояние на некоторое расстояние - PullRequest
0 голосов
/ 03 декабря 2018

У меня есть некоторый набор документов, я просто хочу сгруппировать связанные документы.В настоящее время я использую векторный файл новостей Google (GoogleNews-vectors-positive300.bin), и с помощью этого векторного файла я получаю вектор и использую алгоритм WMD (Word Mover Distance) для определения расстояния между двумя документами.Теперь я хочу интегрировать это с кластеризацией K-средних. В основном я хочу переопределить функцию вычисления расстояния в KMeans.Как я могу это сделать?Любые предложения приветствуются.Заранее спасибо.

1 Ответ

0 голосов
/ 03 декабря 2018

Хотя теоретически возможно реализовать k-средних с другими мерами расстояния, это не рекомендуется - ваш алгоритм может перестать сходиться.Более подробное обсуждение можно найти, например, на StackExchange .Вот почему scikit-learn не имеет других метрик расстояния.

Я бы предложил использовать, например, иерархическую кластеризацию, где вы можете подключить функцию произвольного расстояния.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...