Я хочу использовать сходство с токенами в столбце панд.
Итак,
Я пытаюсь использовать это:
df['tokenized'] = df['text'].apply(nlp)
, а затем
print(df.loc[0, 'tokenized'].similarity(df.loc[1, 'tokenized'])
, чтобы получить сходство.Это работает, но очень медленно, когда у меня есть документ из 10 тыс. Строк.
Затем я попытался воспользоваться преимуществом nlp.pipe
df['tokenized'] = nlp.tokenizer.pipe(df['text'])
, что намного быстрее, но я получаюколонка генераторов вместо токенов.
Есть ли способ получить оценки сходства, используя nlp.pipe () и pandas?