У меня есть фрейм данных pyspark с категориальным столбцом, который преобразуется в кодированный в одноразовый вектор через ...
si = StringIndexer(inputCol="LABEL", outputCol="LABEL_IDX").fit(df)
df = si.transform(df)
oh = OneHotEncoderEstimator(inputCols=["LABEL_IDX"], outputCols=["LABEL_OH"]).fit(df)
df = oh.transform(df)
, когда я смотрю на кадр данных после, я вижу, что некоторые из кодированных в однокадровый вектор векторов выглядят как ...
(1,[],[])
Я бы ожидал, что разреженные векторы будут выглядеть как (1,[0],[1.0])
или (1,[1],[1.0])
, но здесь векторы - просто нули.
Есть идеи, что здесь может происходить?