У меня есть два Spark DataFrames:
cities
DataFrame со следующим столбцом:
city
-----
London
Austin
bigCities
DataFrame со следующим столбцом:
name
------
London
Cairo
Мне нужно преобразовать DataFrame cities
и добавить туда дополнительный логический столбец: bigCity
Значение этого столбца должно быть рассчитано на основе следующего условия "cities.city IN bigCities.name"
Я могу сделать это следующим образом (со статической коллекцией bigCities):
cities.createOrReplaceTempView("cities")
var resultDf = spark.sql("SELECT city, CASE WHEN city IN ['London', 'Cairo'] THEN 'Y' ELSE 'N' END AS bigCity FROM cities")
но я не знаю, как заменить статическую коллекцию bigCities ['London', 'Cairo']
на bigCities
DataFrame в запросе. Я хочу использовать bigCities
в качестве справочных данных в запросе.
Посоветуйте, пожалуйста, как этого добиться.