Я использую K-средства для извлечения тем из текста. Я знаю, что это не лучший способ, но это всего лишь один шаг к более сложной модели. Что меня озадачивает, так это кривая локтя, которую я получаю (ниже). Как бы вы это интерпретировали? Почему внезапный всплеск около 50 К? Или метод локтя не работает при работе с текстом?
from sklearn.cluster import MiniBatchKMeans
wcse = []
for k in range(5, 100, 5):
kmeans_model = MiniBatchKMeans(n_clusters=num_clusters, init='k-means++', n_init=1,
init_size=1000, batch_size=1000, verbose=False, max_iter=1000)
kmeans = kmeans_model.fit(X) # where X is my data
wcse.append(kmeans_.inertia_)
#plot it
fig = plt.figure(figsize=(15, 5))
plt.plot(range(5, 100, 5), wcse)
plt.grid(True)
plt.title('Elbow curve')