Я хочу лемматизировать Dask DataFrame, но я застрял - PullRequest
0 голосов
/ 04 марта 2019

Я новичок в даске, и мне было интересно, кто-нибудь может мне помочь.У меня большой набор текстовых данных> 20 ГБ и я хочу / хочу лемматизировать столбец.Моя текущая функция - которая работает с пандами - это

wnl = WordNetLemmatizer()

def lemmatizing(sentence):    
    stemSentence = ""

    for word in sentence.split():
        stem = wnl.lemmatize(word)
        stemSentence += stem
        stemSentence += " "

    stemSentence = stemSentence.strip()

    return stemSentence

И обычно я выполняю следующее:

df['news_content'] = df['news_content'].apply(lemmatizing)

Я смотрю на delayed, но я озадачен тем, как ее реализовать..

Любая помощь высоко ценится.

...