Использование модели sklearn-python в spark ML 2.2.0 для прогнозирования - PullRequest
0 голосов
/ 01 июня 2018

Я работаю над проблемой классификации текста в python с использованием sklearn .Я создал модель и сохранил ее в pickle .

Ниже приведен код, который я использовал в sklearn.

vectorizerPipe = Pipeline([('tfidf', TfidfVectorizer(lowercase=True,
        stop_words='english')),
('classification', OneVsRestClassifier(LinearSVC(penalty='l2', loss='hinge'))),])

prd=vectorizerPipe.fit(features_used,labels_used])

f = open(file_path, 'wb')
pickle.dump(prd, f)

Есть ли способ использовать это жеpickle, чтобы получить выходные данные на основе Apache Spark, а не на основе RDD.Я просмотрел следующие статьи, но не нашел подходящего способа реализации.

  1. что рекомендовано, чтобы распространять научный материал-класс-классификатор-в-искре

  2. как сделать прогноз с sklearn-модель-внутри-искра -> я нашелоба эти вопроса касаются StackOverflow и считают его полезным.

deploy-a-python-model-Более эффективно-Over-Spark

IЯ новичок в машинном обучении.Итак, простите меня, если объяснение наивно.Любой связанный пример или реализация будут полезны.

...