Я работаю в Spark и использую Scala
У меня есть два CSV-файла, один с именами столбцов, а другой с данными, как я могу объединить их оба, чтобы я мог создать результирующий файл со схемой и данными, а затем я должен применить операции к этому файлу, как groupby, cout и т. д., так как мне нужно посчитать различные значения из этих столбцов.
Так может кто-нибудь помочь здесь будет действительно полезным
Я написал приведенный ниже код, сделав два DF из обоих файлов после их прочтения, после чего я присоединился к обоим DF, используя объединение теперь, как я могу сделать первую строку в виде схемы, или любой другой способ продолжить это. Любой может предложить.
val sparkConf = new SparkConf().setMaster("local[4]").setAppName("hbase sql")
val sc = new SparkContext(sparkConf)
val spark1 = SparkSession.builder().config(sc.getConf).getOrCreate()
val sqlContext = spark1.sqlContext
val spark = SparkSession
.builder
.appName("SparkSQL")
.master("local[*]")
.getOrCreate()
import spark.implicits._
val lines = spark1.sparkContext.textFile("C:/Users/ayushgup/Downloads/home_data_usage_2018122723_1372672.csv").map(lines=>lines.split("""\|""")).toDF()
val header = spark1.sparkContext.textFile("C:/Users/ayushgup/Downloads/Header.csv").map(lin=>lin.split("""\|""")).toDF()
val file = header.unionAll (lines) .toDF ()