Scala-скрипт для создания DF и временных таблиц в оболочке spark - проблемы - PullRequest
0 голосов
/ 27 июня 2018
I have loaded multiple parquet files to create multiple DFs, but when I am using for loop, I am getting errors. 

Markdown and HTML are turned off in code blocks:
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val url_1 = "s3://file_path/folder1.parquet/*"
val url_2 = "s3://file_path/folder2.parquet/*"
val url_3 = "s3://file_path/folder3.parquet/*"
for (url <- Array(url_1 ,url_2 ,url_3)) var parqfile=sqlContext.read.load(url)
for (item <- Array("tb1","tb2","tb3")) parqfile.registerTempTable(item)

но я не могу этого сделать, потому что он говорит, что у меня есть : 1: ошибка: недопустимое начало простого выражения

пожалуйста, помогите ... Спасибо!

1 Ответ

0 голосов
/ 28 июня 2018

Правильный способ сделать это, SPARK 2.x не 1.6, но применяются те же принципы. Гораздо проще, использовал DF в качестве источника. Обратите внимание на {}.

val tb1 = spark.sparkContext.parallelize(Seq(
    ("A", "X", "done"),
    ("A", "Y", "done"),
    ("C", "Y", "done"),
    ("B", "Y", "done")
  )).toDF("Company", "Type", "Status")
val tb2 = spark.sparkContext.parallelize(Seq(
    ("A", "X", "done"),
    ("B", "Y", "done")
  )).toDF("Company", "Type", "Status")
val tb3 = spark.sparkContext.parallelize(Seq(
    ("A", "X", "done")
  )).toDF("Company", "Type", "Status")

for (tb <- Array(tb1 , tb2 , tb3)) {
     tb.createOrReplaceTempView(s"tb")
}

tb2.show // etc.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...