У меня уже есть код для моделирования NMF topi c для файла .csv. Теперь я хочу выполнить это с файлом .txt (книгой). Возможно ли моделирование NMF topi c на .txt файле? Если да, то можно ли изменить существующий код (см. Ниже)? Или есть совершенно другой код для файлов .txt?
Ниже приведен код, который я использовал для CSV-файла NMF topi c моделирование.
import pandas as pd
import numpy as np
reviews_datasets = pd.read_csv(r'Preprocessed file.csv')
reviews_datasets = reviews_datasets.head(20000)
reviews_datasets.dropna()
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect = TfidfVectorizer(max_df=0.8, min_df=2, stop_words='english')
doc_term_matrix = tfidf_vect.fit_transform(reviews_datasets['review'].values.astype('U'))
from sklearn.decomposition import NMF
nmf = NMF(n_components=10, random_state=42)
nmf.fit(doc_term_matrix )
import random
for i in range(10):
random_id = random.randint(0,len(tfidf_vect.get_feature_names()))
print(tfidf_vect.get_feature_names()[random_id])
first_topic = nmf.components_[0]
top_topic_words = first_topic.argsort()[-10:]
for i in top_topic_words:
print(tfidf_vect.get_feature_names()[i])
for i,topic in enumerate(nmf.components_):
print(f'Top 10 words for topic #{i}:')
print([tfidf_vect.get_feature_names()[i] for i in topic.argsort()[-10:]])
print('\n')
Я использую Python 3.7. Заранее спасибо.