Обработка СДР в файле scala - PullRequest
0 голосов
/ 05 июня 2018

Я загрузил 2 CSV-файла, преобразовал RDD в DF и написал несколько условий JOIN для их выполнения.Я использовал искровую оболочку для них.Теперь я хочу поместить / связать все эти команды в файл .scala и выполнить задание spark-submit.В настоящее время я не использую IDE для этого и хочу запустить из терминала.Нужно ли иметь основной метод для этого?Если да, пожалуйста, предложите, как я могу продолжить это?

Большое спасибо за ваше время и вклад.

1 Ответ

0 голосов
/ 05 июня 2018

Вам не нужен метод main для запуска скрипта Scala в оболочке spark.

1. Запишите все шаги в файле и сохраните как file.scala

2. Запустите оболочку spark, как spark-shell -i C: \ spark \ file.scala

Ниже приведен пример кода, который я написал в file.scala

val rdd=sc.textFile("C:\\Users\\manoj kumar dhakad\\Desktop\\scores.txt")
rdd.collect.foreach(println)

Ниже приведен способ его отправки.

spark-shell -i C:\spark\file.scala

Пример вывода

rdd: org.apache.spark.rdd.RDD[String] = C:\Users\manoj kumar dhakad\Desktop\scores.txt MapPartitionsRDD[1] at textFile at <console>:24
75,89,150,135,200,76,12,100,150,28,178,189,167,200,175,150,87,99,129,149,176,200,87,35,157,189
...