Я пытаюсь прочитать файл Parquet из озера данных Azure, используя следующий код Pyspark.
df= sqlContext.read.format("parquet")
.option("header", "true")
.option("inferSchema", "true")
.load("adl://xyz/abc.parquet")
df = df['Id','IsDeleted']
Теперь я хотел бы загрузить этот фрейм данных в виде таблицы в хранилище данных sql, используя следующий код:
df.write \
.format("com.databricks.spark.sqldw") \
.mode('overwrite') \
.option("url", sqlDwUrlSmall) \
.option("forward_spark_azure_storage_credentials", "true") \
.option("dbtable", "test111") \
.option("tempdir", tempDir) \
.save()
Это создает таблицу dbo.test111 в хранилище данных SQL с типами данных:
- Идентификатор (NVARCHAR (256), нулевой)
- IsDeleted (бит, нулевой)
Но мне нужны эти столбцы с разными типами данных, например char (255), varchar (128) в SQL Datawarehouse. Как это сделать при загрузке фрейма данных в хранилище данных SQL?