Я преобразовал целую кучу документов PDF в текст, а затем скомпилировал их в текст, я точно знаю, что у меня есть 3 различных типа документов, и я хочу использовать кластеризацию для их автоматической группировки:
dict_of_docs = {'document_1':'contents of document', 'document_2':'contents of document', 'document_3':'contents of document',...'document_100':'contents of document'}
Затем я векторизовал значения моего словаря:
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(dict_of_docs.values())
Мой вывод X выглядит примерно так:
(0, 768) 0.05895270500636258
(0, 121) 0.11790541001272516
(0, 1080) 0.05895270500636258
(0, 87) 0.2114378682212116
(0, 1458) 0.1195944498355368
(0, 683) 0.0797296332236912
(0, 1321) 0.12603709835806634
(0, 630) 0.12603709835806634
(0, 49) 0.12603709835806634
(0, 750) 0.12603709835806634
(0, 1749) 0.10626171032944469
(0, 478) 0.12603709835806634
(0, 1632) 0.14983692373373858
(0, 177) 0.12603709835806634
(0, 653) 0.0497440271723707
(0, 1268) 0.13342186854440274
(0, 1489) 0.07052056544031632
(0, 72) 0.12603709835806634
...etc etc
Затем я преобразовал их в массив, X = X.toarray()
Сейчас я пытаюсь использовать свои реальные данные для разброса графика кластера с помощью matplotlib.Оттуда я затем хочу использовать то, что я изучил с кластеризацией для сортировки документов.Все руководства, которым я следовал, используют составленные массивы данных, но они не показывают, как перейти от данных реального мира к чему-то, что можно использовать так, как они продемонстрировали.
Как получить мой массиввекторизованных данных в точечный график?