Bhagavan Kumar Gundagani 04 октября 2019 11

Как токенизировать несколько столбцов в панде для NLP

1 Ответ

mulaixi / 07 октября 2019

Вы можете изменить библиотеку, которую используете для токенизации, и применить ее к нескольким столбцам.

import spacy
nlp = spacy.load('en_core_web_lg')

def tokenize(text):
    return [tok.text for tok in nlp.tokenizer(text) if not tok.is_stop]

df['token'] = df['column_name'].apply(lambda x: tokenize(x))
df['another_token'] = df['another_column_name'].apply(lambda y: tokenize(y))

...