почему я не могу использовать функцию limitByKey () при использовании сеанса spark - PullRequest
0 голосов
/ 30 августа 2018
val spark = SparkSession.builder().appName("Wordcount").master("local[*]").getOrCreate()
val textf = spark.read.textFile("in/fruits.txt")
import spark.implicits._
val textf2 = textf.flatMap( x => x.split(" ") )
val textf3 = textf2.filter ( x => x.length > 0)
val textf4 = textf3.map( x => (x,1))  // I get only reduce() function

почему reduByKey недоступен?

1 Ответ

0 голосов
/ 30 августа 2018

Вы используете набор данных [String], когда читаете с использованием сеанса спарка. Метод reduByKey недоступен в DataSet, но доступен в RDD. Вы можете попробовать это:

textf4.map( x => (x,1)).rdd.reduceByKey(...)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...