Я пытаюсь создать кластеризацию k-средних в pyspark.Я использую mnist в качестве набора данных, в котором есть сотни столбцов с целочисленными значениями.
После создания фрейма данных, когда я пытаюсь создать столбец объектов для использования в кластеризации, я незнать, что дать в качестве inputCols
параметра для VectorAssembler
.Ниже приведен мой код
sc = SparkContext('local')
spark = SparkSession(sc)
df = spark.read.csv('mnist_train.csv')
df.show()
df_feat = df.select(*(df[c].cast("float").alias(c) for c in df.columns[0:]))
df_feat.show()
vecAssembler = VectorAssembler(inputCols = ???????, outputCol = "features")
Что я должен указать в качестве параметра для inputCols
для этих больших целочисленных данных, которые я использую?