Как выполнить предварительную обработку, лемматизацию и векторизацию корпуса в SPACY NLP? - PullRequest
1 голос
/ 27 апреля 2019

Я пытаюсь выполнить токенизацию, лемматизацию и векторизацию для папки (с файлами .txt) на ноутбуке Jupyter (Python 3) с помощью spaCy.

Ниже приведены коды, которые я пытался написать, но я, вероятно, допустил ошибку. Я хочу, чтобы вся папка была Tokenized, Lemmatized и Vectorized (не какой-то конкретный файл .txt, а вся его совокупность).

#tokenization
    for token in file_list:
        print(token.text, '\t', token.pos_, '\t', token.lemma, '\t', token.lemma_)

#lemmatisation 
    def show_lemmas(file_list):
        for token in text:
            print(f'{token.text:{12}} {token.pos_:{6}} {token.lemma:<{22}} {token.lemma_}') 
            show_lemmas(file_list)  

#Vectorization (Using TF-IDF to create a vectorized document term matrix)
    from sklearn.feature_extraction.text import TfidfVectorizer
    tfidf = TfidfVectorizer(max_df=0.95,min_df=2, stop_words='english')
    dtm =tfidf.fit_transform(file_list)
    dtm

Я ожидаю, что строки кода смогут выполнять векторизацию текста, лемматизацию и предварительную обработку корпуса в папке (с многочисленными TXT-файлами). Не могли бы вы помочь мне написать коды, необходимые для этого? Кроме того, дайте мне знать, если я должен делать что-то большее (кроме Vec, Tok и Lemm), прежде чем перейти к кластерному анализу?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...