Здесь у меня есть сценарий, где я принимаю файлы паркета, используя sparksql, в таблицы кустов.У меня вопрос, есть ли дополнительное поле в файле паркета, как я могу объединить этот файл с существующей таблицей куста.
Например,
- Первоначально ниже схема файла Parquet содержит пять полей, поэтому таблица кустов имеет 5 полей.
F1 =BBBBBBBACj
F2 = BBBBBBBBABF
F3 = BBBBBBBBACR
F4 = BBBBBBBBEjc
F5 = MAGICSCCCDD
1020 * Через несколько дней схема эволюционировала и появилось новое дополнительное поле, т.е. шестое поле, как показано ниже,
F1 = BBBBBBBBACj
F2 = BBBBBBBBFF
F3 = BBBBBBBACR
F4 = BBBBBBBBEjc
F5 = MAGICSVVCDD
F6 = TESTTTTTTTT
Можем ли мы разместить новое поле в существующем ульес новым полем добавления?
Я делаю загрузку данных в таблицу улья, используя sparksql, ниже приведен код для того же.
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("AppName") \
.getOrCreate()
dF = spark.read.load('/projects/prj_dir/app_dir/dataset1/')
dF.write.mode("append").partitionBy(F2).saveAsTable("Table_nm")