Я загружаю просторный словарь с целью лемматизации нескольких документов.Я использую Gnu Parallel, чтобы использовать мой скрипт лемматизации для нескольких документов (более 1000 документов), чтобы ускорить лемматизацию.Однако загрузка пространственного словаря является очень дорогостоящим шагом, который в идеале я хотел бы загрузить один раз и разделить между всеми процессами.Ниже находится словарь, который я загружаю.
Следующие вопросы задают аналогично тому, что я спрашиваю, но нет окончательных ответов.
Совместное использование общего объекта несколькими процессами
Можно ли совместно использовать часть памяти с GNU Parallel?
nlp = spacy.load('en', disable=['parser', 'ner'])
ls -d -1 /home/ndg/arc/reddit/2015/RC_2015-[0][1-5]*.gz | parallel -j20 --pipe parallel -j100 --no-notice python lemmatize_subreddit_posts.py