Загрузка файла паркета с новым дополнительным атрибутом в существующую таблицу Hive - PullRequest
0 голосов
/ 22 января 2019

Здесь у меня есть сценарий, где я принимаю файлы паркета, используя sparksql, в таблицы кустов.У меня вопрос, есть ли дополнительное поле в файле паркета, как я могу объединить этот файл с существующей таблицей куста.

Например,

  1. Первоначально ниже схема файла Parquet содержит пять полей, поэтому таблица кустов имеет 5 полей.

F1 =BBBBBBBACj

F2 = BBBBBBBBABF

F3 = BBBBBBBBACR

F4 = BBBBBBBBEjc

F5 = MAGICSCCCDD

1020 * Через несколько дней схема эволюционировала и появилось новое дополнительное поле, т.е. шестое поле, как показано ниже,

F1 = BBBBBBBBACj

F2 = BBBBBBBBFF

F3 = BBBBBBBACR

F4 = BBBBBBBBEjc

F5 = MAGICSVVCDD

F6 = TESTTTTTTTT

Можем ли мы разместить новое поле в существующем ульес новым полем добавления?

Я делаю загрузку данных в таблицу улья, используя sparksql, ниже приведен код для того же.

from pyspark.sql import SparkSession

spark = SparkSession.builder \
        .appName("AppName") \
        .getOrCreate()

dF = spark.read.load('/projects/prj_dir/app_dir/dataset1/')

dF.write.mode("append").partitionBy(F2).saveAsTable("Table_nm")
...