В этой части документации упоминается, что nlp.pipe()
работает параллельно, и приводится следующий пример:
for doc in nlp.pipe(texts, batch_size=10000, n_threads=3):
pass
После этого приводится еще один, более длинный пример, который использует joblib. Я не совсем понимаю отношения между ними. Как я понимаю из документации, если я просто хочу распараллелить токенизацию многих документов, будет работать описанный выше простой цикл for, и мне не придется использовать joblib, верно?
Мой конвейер выглядит так:
nlp = spacy.load('en', disable=['parser', 'ner', 'textcat'])
Когда мне нужно будет использовать joblib?