Я новичок в даске, и мне было интересно, кто-нибудь может мне помочь.У меня большой набор текстовых данных> 20 ГБ и я хочу / хочу лемматизировать столбец.Моя текущая функция - которая работает с пандами - это
wnl = WordNetLemmatizer()
def lemmatizing(sentence):
stemSentence = ""
for word in sentence.split():
stem = wnl.lemmatize(word)
stemSentence += stem
stemSentence += " "
stemSentence = stemSentence.strip()
return stemSentence
И обычно я выполняю следующее:
df['news_content'] = df['news_content'].apply(lemmatizing)
Я смотрю на delayed
, но я озадачен тем, как ее реализовать..
Любая помощь высоко ценится.