Я пытаюсь выполнить токенизацию, лемматизацию и векторизацию для папки (с файлами .txt) на ноутбуке Jupyter (Python 3) с помощью spaCy.
Ниже приведены коды, которые я пытался написать, но я, вероятно, допустил ошибку. Я хочу, чтобы вся папка была Tokenized, Lemmatized и Vectorized (не какой-то конкретный файл .txt, а вся его совокупность).
#tokenization
for token in file_list:
print(token.text, '\t', token.pos_, '\t', token.lemma, '\t', token.lemma_)
#lemmatisation
def show_lemmas(file_list):
for token in text:
print(f'{token.text:{12}} {token.pos_:{6}} {token.lemma:<{22}} {token.lemma_}')
show_lemmas(file_list)
#Vectorization (Using TF-IDF to create a vectorized document term matrix)
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(max_df=0.95,min_df=2, stop_words='english')
dtm =tfidf.fit_transform(file_list)
dtm
Я ожидаю, что строки кода смогут выполнять векторизацию текста, лемматизацию и предварительную обработку корпуса в папке (с многочисленными TXT-файлами). Не могли бы вы помочь мне написать коды, необходимые для этого?
Кроме того, дайте мне знать, если я должен делать что-то большее (кроме Vec, Tok и Lemm), прежде чем перейти к кластерному анализу?