Ошибка типа при лемматизации текста в Pandas Dataframe - PullRequest
1 голос
/ 03 марта 2020

Я работаю с текстовыми данными и выполняю на них этапы предварительной обработки.

Я использую SpaCy modeule для лемматизации текста. Я написал код, как показано ниже:

import spacy
import de_core_news_sm
nlp = de_core_news_sm.load()

def spacy_lemma_text(text):
    doc = nlp(text)
    tokens = [tok.lemma_.lower().strip() for tok in doc]
    tokens = ' '.join(tokens)
    return tokens

df['spacy_lemma_text'] = data['Text'].apply(spacy_lemma_text)

Код дает ниже ошибки. Я перепробовал много альтернатив. Я думаю, что это связано с pandas фреймом данных. Пожалуйста, помогите мне решить ошибку.

TypeError: 'NoneType' object does not support item assignment

1 Ответ

1 голос
/ 03 марта 2020

Одна идея - применить решение только для не пропущенных и не None значений:

m = data['Text'].notna()
data.loc[m, 'spacy_lemma_text'] = data.loc[m, 'Text'].apply(spacy_lemma_text)
...