Ошибка куста при попытке загрузить данные метки времени в таблицу кустов hdfs path- Метка времени не доступна для записи - PullRequest
0 голосов
/ 03 октября 2019

Я пытаюсь загрузить файл с меткой времени в мою таблицу кустов, сохранив фрейм данных в путь hdfs. Однако, когда я загружаю его, я получаю сообщение об ошибке. Я использую Hive и pyspark.

Вот мой код:

    --create table
    spark.sql("create  external table if not exists db1.test_poc12 (creation_date string, field1 string, field2 string) stored as parquet LOCATION '/hadoop/test_poc12/par_poc.parquet' ")

    import time
    import datetime
    timestamp = datetime.datetime.fromtimestamp(time.time()).strftime('%Y-%m-%d %H:%M:%S')
    #type(timestamp)

    from pyspark.sql.functions import lit,unix_timestamp

    --read csv file that holds the data
    df=spark.read.csv("/user/poc.csv", header='true', inferSchema="false")

--add column to left of table with timestamp values
   new_df=df.withColumn('creation_date',unix_timestamp(lit(timestamp),'yyyy-MM-dd HH:mm:ss').cast("timestamp")).select("creation_date","field1","field2")

--save it to hdfs table
    new_df.write.save('/hadoop/test_poc12/par_poc.parquet', format='parquet', mode='overwrite')

Вот данные внутри new_df.show ():

enter image description here

Есть идеи, что я делаю неправильно или почему я получаю эту ошибку? enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...