Является ли t-sne правильным способом визуализации кластеров lsi или lda? - PullRequest
0 голосов
/ 22 марта 2019

Я пытаюсь визуализировать свои кластеры lsi (скрытой семантической индексации) с помощью t-sne, проблема в том, что мне нужно 3 кластера, но в визуализации я получаю только 2 (мои данные - короткий текст)

visualisation

for i in enumerate(lsimodel[doc_term_matrix2]):
 try:
        p=i[1]       
        p1=p[0]
        p01=p1[1]    
        p2=p[1]
        p02=p2[1]  
        p3=p[2]
        p03=p3[1]
        d=[p01,p02,p03]
        topic_weights.append(d)
 except IndexError:
     pass   
 arr = pd.DataFrame(topic_weights).fillna(0).values 
 topic_num = np.argmax(arr, axis=1)  
 tsne_model = TSNE(n_components=3, verbose=1, random_state=0, angle=.99, 
 init='pca')
 tsne_lsi = tsne_model.fit_transform(arr) 
 output_notebook()
 n_topics =3
 mycolors = np.array([color for name, color in 
 mcolors.TABLEAU_COLORS.items()])
 plot = figure(title="t-SNE Clustering of {} LSI Topics".format(n_topics), 
          plot_width=900, plot_height=700)
 plot.scatter(x=tsne_lsi[:,0], y=tsne_lsi[:,1], color=mycolors[topic_num])      
 output_file("foo.html")
...