Как сделать моделирование NMF topi c на .txt файле (книге)? - PullRequest
0 голосов
/ 30 мая 2020

У меня уже есть код для моделирования NMF topi c для файла .csv. Теперь я хочу выполнить это с файлом .txt (книгой). Возможно ли моделирование NMF topi c на .txt файле? Если да, то можно ли изменить существующий код (см. Ниже)? Или есть совершенно другой код для файлов .txt?

Ниже приведен код, который я использовал для CSV-файла NMF topi c моделирование.

import pandas as pd
import numpy as np

reviews_datasets = pd.read_csv(r'Preprocessed file.csv')
reviews_datasets = reviews_datasets.head(20000)
reviews_datasets.dropna()

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vect = TfidfVectorizer(max_df=0.8, min_df=2, stop_words='english')
doc_term_matrix = tfidf_vect.fit_transform(reviews_datasets['review'].values.astype('U'))

from sklearn.decomposition import NMF

nmf = NMF(n_components=10, random_state=42)
nmf.fit(doc_term_matrix )

import random

for i in range(10):
    random_id = random.randint(0,len(tfidf_vect.get_feature_names()))
    print(tfidf_vect.get_feature_names()[random_id])

first_topic = nmf.components_[0]
top_topic_words = first_topic.argsort()[-10:]

for i in top_topic_words:
    print(tfidf_vect.get_feature_names()[i])

for i,topic in enumerate(nmf.components_):
    print(f'Top 10 words for topic #{i}:')
    print([tfidf_vect.get_feature_names()[i] for i in topic.argsort()[-10:]])
    print('\n')

Я использую Python 3.7. Заранее спасибо.

...