Кажется, единственное, что вам нужно от spacy - это POS-теги.Вы можете выиграть некоторое время, если отключите распознавание и распознавание объектов.
В Spacy 1.x:
nlp = spacy.load('en', parser=False, entity=False)
В Spacy 2.x:
nlp = spacy.load('en', disable=['ner', 'parser'])
Iне знаю, какова структура данных вашего df
и что делает .apply
, но вы, конечно, можете попытаться получить некоторое ускорение с помощью некоторого распараллеливания.