Как два используют spark.sql выбрать две таблицы на основе столбцов в каждой строке - PullRequest
0 голосов
/ 08 мая 2019

По сути, у меня есть две таблицы, схемы приведены ниже:

root
 |-- machine_id: string (nullable = true)
 |-- time_stamp: double (nullable = true)

scala> containerUsage.printSchema
root
 |-- container_id: string (nullable = true)
 |-- machine_id: string (nullable = true)
 |-- time_stamp: double (nullable = true)
 |-- cpu_util_percent: double (nullable = true)
 |-- mem_util_percent: double (nullable = true)
 |-- cpi: double (nullable = true)
 |-- mem_gps: double (nullable = true)
 |-- mpki: integer (nullable = true)
 |-- net_in: double (nullable = true)
 |-- net_out: double (nullable = true)
 |-- disk_io_percent: double (nullable = true)

Я хочу выбрать столбцы из containerUsage, чтобы получить те строки, чей {machine_id, time_stamp} можно найти в invalidTime.

пытался

WHERE containerUsage.machine_id = invalidTime.machine_id AND containerUsage.time_stamp = invalidTime.time_stamp

это выбирает строки, либо их time_stamp можно найти в invalidTime, либо их machine_id.

Я хочу получить строки, которые {machine_id, time_stamp} (только здесьописывать, а не формировать массив или что-то) можно найти в invalidTime

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...