Почему лемматизатор Spacy дает странные результаты? - PullRequest
0 голосов
/ 06 июля 2019

Я пытаюсь выполнить некоторую предварительную обработку текста, а затем сохранить данные в новых CSV-файлах, чтобы использовать их позже.Это то, что я получаю в файле csv в 2 случаях лемматизации или не лемматизации текста:

Не лемматизированный текст:

сначала у племянницы вы просто копируете меня снова

не могу перестать смеяться над картиной, ах, ах, так или иначе, я закончил с уроками в течение дня, но я собираюсь учиться на бит

Лемматизированный текст:

есть племянница � 1-PRON- просто скопируйте меняснова

не могу перестать смеяться над пикой ах ах в любом случае, делать с уроком на день, но -ONON- идти учиться на укус

import spacy
nlp = spacy.load('en_core_web_sm', disable=['parser', 'tagger', 'ner'])

def lemmatization(string):
    lemmatized_string = nlp(string)
    lemmatized_string = " ".join([token.lemma_ for token in lemmatized_string])
    return lemmatized_string

# a -> dataframe that holds the data
a.to_csv('data.csv', encoding='utf-8', index=False)

-PRON- соответствует "Im"или "Я".Почему он не использует вместо этого «быть»?Кроме того, почему этот символ встречается?� 1 Я пытался использовать и другие кодировки, но ни одна из них не сработала (utf-8, utf-sig-8, cp1252)

...