Вы можете реорганизовать свой код, чтобы упростить синхронизацию каждой части по отдельности. lemmatize()
может быть частью вашего узкого места, но другие важные участники могут также: (1) составлять по одному крупному документу по списку через список .append()
; (2) декодирование utf-8.
Отдельно gensim lemmatize()
использует функцию parse()
из библиотеки Pattern
; Вы можете попробовать альтернативную утилиту для лемматизации, например, в NLTK или Spacy.
Наконец, поскольку лемматизация может быть по своей природе дорогостоящей операцией, и может случиться так, что одни и те же исходные данные обрабатываются много раз в вашем конвейере, вы можете захотеть спроектировать свой процесс так, чтобы результаты перезаписывались на диск , а затем повторно используется при последующих запусках, а не всегда делается "в линию".