Удалите стоп-слова, основы и токенизируйте предложение, используя spaCy - PullRequest
0 голосов
/ 30 марта 2019

Есть ли способ в spaCy выполнить несколько шагов предварительной обработки, таких как: удалить стоп-слова, удалить символы [@ # $% ^ & *], применить stemming и затем получить токенизированный результат? Использование nlp("Some sentence") создает график для всего списка слов, и, поскольку я хотел бы заранее удалить стоп-слова, это не так эффективно. Мне известно, что я могу использовать цикл for для удаления слов вручную, но я думал о способе сделать это во время инициализации команды nlp().

...