Я обучил модель научного обучения (~ 70 МБ), которую я хочу использовать для прогнозирования с помощью Apache Beam.
Однако мне интересно, если при использовании parDo
будет загружена модель для каждой строки, следовательно, используется огромное количество ресурсов
class PredictClass(beam.DoFn):
def process(self, row):
call([...]) # copy the model from remote location
model = joblib.load('model_path.pk1')
В моем конвейере:
...
predict_p = (query_dbs | 'PredictClasses' >> beam.ParDo(PredictClass())
...
Есть ли лучший способ сделать это?
Где я должен загрузить обученный классификатор?