Я хочу посчитать количество вхождений только одного индекса из текстового файла в Spark RDD java. Формат моего файла: Дата, час, Страна, Продукт, Цена, Paiement_Mode
Я просто хочу выполнить этот код для индекса (Продукт). Угадайте, что у файла нет имени столбца, только информация.
JavaRDD<String> textFile = sc.textFile(inputFilePath);
JavaPairRDD<String, Integer> counts = textFile
.flatMap(s -> Arrays.asList(s.split(" ")).iterator())
.mapToPair(word -> new Tuple2<>(word, 1))
.reduceByKey((a, b) -> a + b);
counts.saveAsTextFile(outputDir);