Фильтровать столбцы таблицы и маршрут к другой таблице, если она пуста - PullRequest
0 голосов
/ 13 сентября 2018

Я не очень разбираюсь в SQL, но все же хотел бы спросить этот форум.

Моя задача - обрабатывать записи с нулевыми значениями.Я имею в виду, что у нас есть естественные ключи (предположим, 4 столбца), где, если какой-либо из столбцов получает в него NULL значений, он должен быть направлен в другую таблицу, чтобы об этом можно было сообщить клиенту.

AFAIKSQL дает только один выход и не может быть разделен.Есть ли способ справиться с этим в SQL / spark SQL?Мне нужно выполнить это задание, используя spark.

Поток процесса:

  1. первые данные помещаются в квадрат и хранятся в таблице кустов

  2. Мне нужно взять эти данные и проверить наличие нулевых значений.

  3. сохранить их в таблицах следующего уровня

1 Ответ

0 голосов
/ 13 сентября 2018

Хотя вы не можете сделать это за один раз, вы можете сделать это с помощью упомянутых шагов.

После того, как таблица создана в Hive, вы можете использовать PySpark,

#Set all the imports and enable Hive support for the session
#Dataframe to hold rows where either of 4 columns is null
df=spark.sql("select * from tblName where col1 is null or col2 is null or col3 is null or col4 is null")
#Write the resulting dataframe to a Hive table
df.saveAsTable('tableName') #Use other arguments in saveAsTable as required
...