Я пытаюсь использовать 20 самых популярных данных частоты 2000 тем в https://github.com/wwbp/facebook_topics/tree/master/csv
Я хотел бы выполнить рандомизированный PCA для данных.Из документации X должен иметь форму массива, подобную форме (n_samples, n_features).
Я импортировал файл с LDA_topics = pd.read_csv(r'2000topics.top20freqs.keys.csv', header=None, index_col=0, error_bad_lines=False)
, однако это неправильный формат для следующегострока:
pca2 = sklearn.decomposition.RandomizedPCA(n_components=45)
pca2.fit(LDA_topics)
, в результате чего ошибка ValueError: не удалось преобразовать строку в число с плавающей точкой: 'sonic'
Есть ли способ выполнить PCA и сохранить метки элементов, а не только частоты после этого?