отменить масштаб данных Pyspark - PullRequest
0 голосов
/ 30 августа 2018
from pyspark.ml.feature import MinMaxScaler
from pyspark.ml.linalg import Vectors

df = spark.createDataFrame([
   (0, Vectors.dense([5.0, 0.1, -1.0]),),
   (1, Vectors.dense([2.0, 2.1, 1.0]),),
   (2, Vectors.dense([3.0, 10.1, 7.0]),)
], ["id", "features"])

scaler = MinMaxScaler(inputCol="features", outputCol="scaledFeatures")
scaler_model = scaler.fit(df)
scaled_data = scalerModel.transform(df)

scaled_data - преобразованные данные.

Как я могу сделать обратную шкалу для анализа результатов после подбора модели машинного обучения?

1 Ответ

0 голосов
/ 30 августа 2018

MinMaxScaler добавляет масштабированные объекты в виде нового столбца scaledFeatures, поэтому ваши фактические данные не теряются.

Вы можете использовать столбец features для анализа выходного столбца scaledFeatures перед его использованием в модели машинного обучения.

...