Как установить первичный ключ при создании фрейма данных PySpark - PullRequest
0 голосов
/ 07 января 2020

Я в основном создал склеенную динамическую рамку c из таблицы, которую я прочитал "raw_tb". Затем я преобразовал динамический фрейм c в Spark Dataframe, используя метод .todf (). Теперь я пытаюсь создать 2 отдельных фрейма данных из raw_df.

# Spark Context Object
sc = SparkContext.getOrCreate()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)

#sqlContext = SQLContext(sc)

# Boto Client Objects
client = boto3.client('glue', region_name=REGION_NAME)
s3client = boto3.client('s3', region_name=REGION_NAME)

RAW_TABLE = "raw_tb"

table_read_df = glueContext.create_dynamic_frame.from_catalog (RAW_DATABASE, RAW_TABLE)

raw_df = table_read_df.toDF()

policy_tbl = raw_df['policynumber','status','startdate','expirationdate']
location_tbl = raw_df['locationid','city','county','state','zip']

Здесь я хотел бы установите столбец «policynumber» в policy_tbl и столбец «locationid» в location_tbl в качестве первичных ключей. Я не уверен, как это возможно. Пожалуйста, помогите!

https://i.stack.imgur.com/OeI0N.png

...