Question

Я ищу реализацию Python алгоритма k-средних с примерами для кластеризации и кэширования моей базы данных координат.

tom10 · Answer 1 · 10 октября 2009

Кластеризация Scipy реализации работают хорошо, и они включают k-средних реализацию.

Существует также scipy-cluster , которая выполняет агломерационную кластеризацию; Преимущество этого метода заключается в том, что вам не нужно заранее определять количество кластеров.

Vebjorn Ljosa · Answer 2 · 08 февраля 2010

SciPy kmeans2 () имеет некоторые числовые проблемы: в других сообщается сообщения об ошибках, такие как «Матрица не определена положительно - разложение Холецкого не может быть вычислено» в версии 0.6.0, и я только что столкнулся с тем же в версии 0.7.1.

На данный момент я бы рекомендовал использовать PyCluster . Пример использования:

>>> import numpy
>>> import Pycluster
>>> points = numpy.vstack([numpy.random.multivariate_normal(mean, 
                                                            0.03 * numpy.diag([1,1]),
                                                            20) 
                           for mean in [(1, 1), (2, 4), (3, 2)]])
>>> labels, error, nfound = Pycluster.kcluster(points, 3)
>>> labels  # Cluster number for each point
array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2], dtype=int32)
>>> error   # The within-cluster sum of distances for the solution
1.7721661785401261
>>> nfound  # Number of times this solution was found
1

Nathan · Answer 3 · 09 апреля 2010

Для непрерывных данных k-means очень просто.

Вам необходим список ваших средств, и для каждой точки данных найдите среднее значение, наиболее близкое к нему, и усредните новые точки данных к нему. ваши средства будут представлять недавние заметные группы точек во входных данных.

Я делаю усреднение непрерывно, поэтому нет необходимости иметь старые данные для получения нового среднего. Учитывая старое среднее значение k, следующую точку данных x и константу n, которая представляет собой число прошлых точек данных, для которых необходимо сохранить среднее значение, новое среднее значение составляет

k*(1-(1/n)) + n*(1/n)

Вот полный код на Python

from __future__ import division
from random import random

# init means and data to random values
# use real data in your code
means = [random() for i in range(10)]
data = [random() for i in range(1000)]

param = 0.01 # bigger numbers make the means change faster
# must be between 0 and 1

for x in data:
    closest_k = 0;
    smallest_error = 9999; # this should really be positive infinity
    for k in enumerate(means):
        error = abs(x-k[1])
        if error < smallest_error:
            smallest_error = error
            closest_k = k[0]
        means[closest_k] = means[closest_k]*(1-param) + x*(param)

Вы можете просто напечатать средства, когда все данные пройдены, но гораздо интереснее наблюдать, как они изменяются в реальном времени. Я использовал это на частотных конвертах с битами звука 20 мс, и после разговора с ним в течение минуты или двух, у него были последовательные категории для короткого гласного «а», длинного гласного «о» и согласного «с». странно!

denis · Answer 4 · 04 июля 2011

(Годы спустя) этот файл kmeans.py под функция "можно ли указать свою собственную дистанцию", используя "scikits-learn-k-means" является простой и достаточно быстрой ; он использует любую из 20 с лишним метрик в scipy.spatial.distance.

Jacob · Answer 5 · 09 октября 2009

Из википедии , вы можете использовать scipy, K-означает кластеризацию векторного квантования

Или вы можете использовать оболочку Python для OpenCV, ctypes-opencv .

Или вы можете Новый Python-интерфейс OpenCV и их kmeans реализация.

gsilv · Answer 6 · 12 февраля 2017

SciKit Learn's KMeans () - это самый простой способ применения k-средних в Python. Подгонка кластеров проста как: kmeans = KMeans(n_clusters=2, random_state=0).fit(X).

Этот фрагмент кода показывает, как хранить координаты центроида и прогнозировать кластеры для массива координат.

>>> from sklearn.cluster import KMeans
>>> import numpy as np
>>> X = np.array([[1, 2], [1, 4], [1, 0],
...               [4, 2], [4, 4], [4, 0]])
>>> kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
>>> kmeans.labels_
array([0, 0, 0, 1, 1, 1], dtype=int32)
>>> kmeans.predict([[0, 0], [4, 4]])
array([0, 1], dtype=int32)
>>> kmeans.cluster_centers_
array([[ 1.,  2.],
       [ 4.,  2.]])

(предоставлено документацией SciKit Learn, ссылка выше)

Guest · Answer 7 · 15 сентября 2014

Python Pycluster и pyplot могут использоваться для кластеризации k-средних и для визуализации 2D-данных. В недавнем сообщении в блоге Анализ цены / объема акций с использованием Python и PyCluster приводится пример кластеризации с использованием PyCluster для данных о запасах.

George Silva · Answer 8 · 09 октября 2009

Вы также можете использовать GDAL, который имеет много функций для работы с пространственными данными.

Алгоритм Python K-средних

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Алгоритм Python K-средних

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы