Я работаю над проблемой классификации текста в python с использованием sklearn .Я создал модель и сохранил ее в pickle .
Ниже приведен код, который я использовал в sklearn.
vectorizerPipe = Pipeline([('tfidf', TfidfVectorizer(lowercase=True,
stop_words='english')),
('classification', OneVsRestClassifier(LinearSVC(penalty='l2', loss='hinge'))),])
prd=vectorizerPipe.fit(features_used,labels_used])
f = open(file_path, 'wb')
pickle.dump(prd, f)
Есть ли способ использовать это жеpickle, чтобы получить выходные данные на основе Apache Spark, а не на основе RDD.Я просмотрел следующие статьи, но не нашел подходящего способа реализации.
что рекомендовано, чтобы распространять научный материал-класс-классификатор-в-искре
как сделать прогноз с sklearn-модель-внутри-искра -> я нашелоба эти вопроса касаются StackOverflow и считают его полезным.
deploy-a-python-model-Более эффективно-Over-Spark
IЯ новичок в машинном обучении.Итак, простите меня, если объяснение наивно.Любой связанный пример или реализация будут полезны.