Операция Scala Reduce () для RDD [Array [Int]] - PullRequest
0 голосов
/ 29 июня 2018

У меня есть СДР одномерной матрицы. Я пытаюсь выполнить очень простую операцию уменьшения, чтобы суммировать значения одной и той же позиции матрицы из разных разделов.

Я использую:

var z=x.reduce((a,b)=>a+b)

или

var z=x.reduce(_ + _)

Но я получаю сообщение об ошибке: несоответствие типов; найдено Array [Int], ожидаемое: String

Я посмотрел и нашел ссылку Есть ли лучший способ уменьшить операцию на СДР [Массив [Двойной]]

Итак, я попытался использовать import.spire.implicits._ Так что теперь у меня нет ошибки компиляции, но после запуска кода я получаю java.lang.NoSuchMethodError. Я предоставил всю ошибку ниже. Любая помощь будет оценена.

java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V
at spire.math.NumberTag$Integral$.<init>(NumberTag.scala:9)
at spire.math.NumberTag$Integral$.<clinit>(NumberTag.scala)
at spire.std.BigIntInstances.$init$(bigInt.scala:80)
at spire.implicits$.<init>(implicits.scala:6)
at spire.implicits$.<clinit>(implicits.scala)
at main.scala.com.ucr.edu.SparkScala.HistogramRDD$$anonfun$9.apply(HistogramRDD.scala:118)
at main.scala.com.ucr.edu.SparkScala.HistogramRDD$$anonfun$9.apply(HistogramRDD.scala:118)
at scala.collection.TraversableOnce$$anonfun$reduceLeft$1.apply(TraversableOnce.scala:190)
at scala.collection.TraversableOnce$$anonfun$reduceLeft$1.apply(TraversableOnce.scala:185)
at scala.collection.Iterator$class.foreach(Iterator.scala:893)
at scala.collection.AbstractIterator.foreach(Iterator.scala:1336)
at scala.collection.TraversableOnce$class.reduceLeft(TraversableOnce.scala:185)
at scala.collection.AbstractIterator.reduceLeft(Iterator.scala:1336)
at org.apache.spark.rdd.RDD$$anonfun$reduce$1$$anonfun$15.apply(RDD.scala:1012)
at org.apache.spark.rdd.RDD$$anonfun$reduce$1$$anonfun$15.apply(RDD.scala:1010)
at org.apache.spark.SparkContext$$anonfun$33.apply(SparkContext.scala:2125)
at org.apache.spark.SparkContext$$anonfun$33.apply(SparkContext.scala:2125)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
at org.apache.spark.scheduler.Task.run(Task.scala:108)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:338)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)

1 Ответ

0 голосов
/ 29 июня 2018

Насколько я понимаю, вы пытаетесь уменьшить элементы по позициям в массивах. Вы должны рассмотреть возможность сжатия ваших массивов при уменьшении rdd:

val a: RDD[Array[Int]] = ss.createDataset[Array[Int]](Seq(Array(1,2,3), Array(4,5,6))).rdd

    a.reduce{case (a: Array[Int],b: Array[Int]) =>
        val ziped = a.zip(b)
        ziped.map{case (i1, i2) => i1 + i2}
    }.foreach(println)

выходы:

5
7
9
...