Как токенизировать несколько столбцов в панде для NLP - PullRequest
0 голосов
/ 04 октября 2019

Как токенизировать мой фрейм данных с числами, имеющими несколько столбцов текстовых данных введите описание изображения здесь

1 Ответ

0 голосов
/ 07 октября 2019

Вы можете изменить библиотеку, которую используете для токенизации, и применить ее к нескольким столбцам.

import spacy
nlp = spacy.load('en_core_web_lg')

def tokenize(text):
    return [tok.text for tok in nlp.tokenizer(text) if not tok.is_stop]

df['token'] = df['column_name'].apply(lambda x: tokenize(x))
df['another_token'] = df['another_column_name'].apply(lambda y: tokenize(y))
...