Можно ли разделить дорогостоящий объект между несколькими параллельными процессами Gnu? - PullRequest
0 голосов
/ 04 июня 2019

Я загружаю просторный словарь с целью лемматизации нескольких документов.Я использую Gnu Parallel, чтобы использовать мой скрипт лемматизации для нескольких документов (более 1000 документов), чтобы ускорить лемматизацию.Однако загрузка пространственного словаря является очень дорогостоящим шагом, который в идеале я хотел бы загрузить один раз и разделить между всеми процессами.Ниже находится словарь, который я загружаю.

Следующие вопросы задают аналогично тому, что я спрашиваю, но нет окончательных ответов.

Совместное использование общего объекта несколькими процессами

Можно ли совместно использовать часть памяти с GNU Parallel?

nlp = spacy.load('en', disable=['parser', 'ner'])

ls -d -1 /home/ndg/arc/reddit/2015/RC_2015-[0][1-5]*.gz | parallel -j20 --pipe parallel -j100 --no-notice python lemmatize_subreddit_posts.py
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...