Низкая производительность кластеризации средств K - PullRequest
0 голосов
/ 02 мая 2019

Я использовал кластеризацию K-Means в своем проекте, но получение ответа занимает уйму времени, ниже приведен код, показывающий использование, если кто-нибудь, пожалуйста, помогите мне с этим.Заранее спасибо!

for i in range(n_sentence):
    enc_email = enc_sentence[i]
    n_clusters = int(np.ceil(len(enc_email)**0.5))

    kmeans = KMeans(n_clusters=n_clusters, random_state=0)

    kmeans = kmeans.fit(enc_email)

    avg = []
    closest = []
    for j in range(n_clusters):
        idx = np.where(kmeans.labels_ == j)[0]
        avg.append(np.mean(idx))

    closest, _ = pairwise_distances_argmin_min(kmeans.cluster_centers_,\
                                               enc_email)


    ordering = sorted(range(n_clusters), key=lambda k: avg[k])
    summary[i] = ' '.join([sentence[i][closest[idx]] for idx in ordering])

print('Clustering Finished')
...