Я построил предварительную модель ML (PySpark
) с образцами данных на моем ПК (Windows
), и точность составляет около 70%. После сохранения model binary
на диске я читаю его из другого ноутбука Jupyter, и точность составляет где-то около 70%. Теперь, если я делаю то же самое на нашем кластере (MapR/Unix
), после считывания model binary
с диска точность падает до 10-11% (набор данных также точно такой же). Даже с полным набором данных у меня возникла та же проблема (только для информации).
Поскольку в кластере установлена ОС Unix, я попытался провести обучающее-постоянное тестирование модели в док-контейнере (Unix), но проблем там не было,Проблема только в кластере.
С тех пор я ломал голову о том, что может быть причиной и как ее решить. Пожалуйста, помогите.
Редактировать:
Это проблема классификации, и я использовал pyspark.ml.classification.RandomForestClassifier
.
Для сохранения моделей я просто использую стандартную настройку:
model.write().overwrite().save(model_path)
И для загрузки модели:
model = pyspark.ml.classification.RandomForestClassificationModel().load(model_path)
Я использовал StringIndexer
, OneHotEncoder
и т. Д. В модели, а также сохранил их на диске, чтобы использовать их в другом ноутбуке Jupyter (так же, как в основной модели).
Редактировать:
Python: 3.x
Spark: 2.3.1