У меня есть фрейм данных PySpark с одним из столбцов (features
), который является разреженным вектором. Например:
+------------------+-----+
| features |label|
+------------------+-----+
| (4823,[87],[0.0])| 0.0|
| (4823,[31],[2.0])| 0.0|
|(4823,[159],[0.0])| 1.0|
| (4823,[1],[7.0])| 0.0|
|(4823,[15],[27.0])| 0.0|
+------------------+-----+
Я хотел бы расширить столбец features
и добавить к нему еще одну функцию, например:
+-------------------+-----+
| features |label|
+-------------------+-----+
| (4824,[87],[0.0]) | 0.0|
| (4824,[31],[2.0]) | 0.0|
|(4824,[159],[0.0]) | 1.0|
| (4824,[1],[7.0]) | 0.0|
|(4824,[4824],[7.0])| 0.0|
+-------------------+-----+
Есть ли способ сделать это, не распаковывая SparseVector
в плотный, а затем перепаковывая его для разрежения с новым столбцом?