модель машинного обучения при сохранении производительности снижает - PullRequest
0 голосов
/ 08 октября 2019

Я построил предварительную модель ML (PySpark) с образцами данных на моем ПК (Windows), и точность составляет около 70%. После сохранения model binary на диске я читаю его из другого ноутбука Jupyter, и точность составляет где-то около 70%. Теперь, если я делаю то же самое на нашем кластере (MapR/Unix), после считывания model binary с диска точность падает до 10-11% (набор данных также точно такой же). Даже с полным набором данных у меня возникла та же проблема (только для информации).

Поскольку в кластере установлена ​​ОС Unix, я попытался провести обучающее-постоянное тестирование модели в док-контейнере (Unix), но проблем там не было,Проблема только в кластере.

С тех пор я ломал голову о том, что может быть причиной и как ее решить. Пожалуйста, помогите.

Редактировать:

Это проблема классификации, и я использовал pyspark.ml.classification.RandomForestClassifier.

Для сохранения моделей я просто использую стандартную настройку:

model.write().overwrite().save(model_path)

И для загрузки модели:

model = pyspark.ml.classification.RandomForestClassificationModel().load(model_path)

Я использовал StringIndexer, OneHotEncoder и т. Д. В модели, а также сохранил их на диске, чтобы использовать их в другом ноутбуке Jupyter (так же, как в основной модели).

Редактировать:

Python: 3.x
Spark: 2.3.1

...