Вы можете построить Spark DataFrame из массива, как показано ниже:
scala> val arr = Array("eason", "wency", "elton", "kobe")
arr: Array[String] = Array(eason, wency, elton, kobe)
scala> val df = sc.parallelize(arr).toDF("name")
df: org.apache.spark.sql.DataFrame = [name: string]
scala> df.show()
+-----+
|name|
+-----+
|eason|
|wency|
|elton|
| kobe|
+-----+
Как только DataFrame создан из Array, вы можете объединить 2 DataFrames, используя поле общего имени.
OtherФрейм данных:
scala> otherDF.show()
+-----+-----+
| name|grade|
+-----+-----+
|eason| 90|
| evan| 80|
|wency| 70|
|elton| 50|
|frank| 90|
| kobe| 90|
+-----+-----+
Соединение двух фреймов данных с использованием поля имени:
scala> val joinedDF = otherDF.join(df, "name")
joinedDF: org.apache.spark.sql.DataFrame = [name: string, grade: int]
scala>
scala> joinedDF.show()
+-----+-----+
| name|grade|
+-----+-----+
|eason| 90|
|wency| 70|
|elton| 50|
| kobe| 90|
+-----+-----+