У меня есть программа подсчета слов в Eclipse с использованием Maven и Scala.После экспорта файла jar и попытки запустить его на терминале (в Ubuntu) я получил неожиданный результат
Мой искра пути -
home/amel/spark
Мой путь пути -
/usr/local/hadoop
мои команды: su hadoopusr // я ввожу свой пароль, затем я ввожу эту команду start-all.sh, затем я ввожу свой искровой файл, где был сохранен jar, и запускаю эту команду
spark-submit --class bd.spark_app.first.wordcount --master yarn --
master local[2] SparkExample.jar
r
** имейте в виду, что в моей HDFS есть файл с именем «sampledata», файл, в котором я буду запускать программу подсчета слов **
это код, который яесть на eclipse (я использую проект maven с scala ide) пакетом bd.spark_app
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.rdd.RDD.rddToOrderedRDDFunctions
object first {
def main ( args:Array[String] ) ={
val conf = new SparkConf().setMaster("local").setAppName("wordcount")
val sc = new SparkContext(conf)
val sampledata = sc.textFile("/home/hadoopusr/sampledata")
val result = sampledata.flatMap(_.split(" ")).map(words => (words,
1)).reduceByKey(_+_)
result.collect.foreach(println)
result.saveAsTextFile("outputfile")
sc.stop()
}
}
Я ожидал этого результата
(me,4)
(you,3)
(food,2)
(cat,1)