Question

Я хочу использовать сходство с токенами в столбце панд.

Итак,

Я пытаюсь использовать это:

df['tokenized'] = df['text'].apply(nlp)

, а затем

print(df.loc[0, 'tokenized'].similarity(df.loc[1, 'tokenized'])

, чтобы получить сходство.Это работает, но очень медленно, когда у меня есть документ из 10 тыс. Строк.

Затем я попытался воспользоваться преимуществом nlp.pipe

df['tokenized'] = nlp.tokenizer.pipe(df['text'])

, что намного быстрее, но я получаюколонка генераторов вместо токенов.

Есть ли способ получить оценки сходства, используя nlp.pipe () и pandas?

Есть ли способ получить оценки сходства, используя nlp.pipe () и pandas на SpaCy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.