Ошибка Привет, я пытаюсь создать новый столбец в Spark RDD. Я пытаюсь использовать набор данных, в который я хочу добавить процент игр, созданных издателем, во всех играх. Набор данных выглядит следующим образом:
Имя, Платформа, Год, Жанр, Издатель, NA_Sales, EU_Sales, JP_Sales, Other_Sales
val vgdataLines = sc.textFile("hdfs:///user/ashhall1616/bdc_data/t1/vgsales-small.csv")
val vgdata = vgdataLines.map(_.split(";"))
def toPercentage(x: Double): Double = {x * 100} val countPubl = vgdata.map(r => (r(4),1)).reduceByKey(_+_)
val addpercen = countPubl.withColumn("count", toPercentage($"count"/countPubl.count(_._2)))
Я использовал withColumn()
, чтобы добавить счетчик нового столбца 'и ожидаемый результат будет таким:
(Ubisoft,3,15.0)
Может ли кто-нибудь сказать, что здесь не так?