Я пытаюсь загрузить файл с меткой времени в мою таблицу кустов, сохранив фрейм данных в путь hdfs. Однако, когда я загружаю его, я получаю сообщение об ошибке. Я использую Hive и pyspark.
Вот мой код:
--create table
spark.sql("create external table if not exists db1.test_poc12 (creation_date string, field1 string, field2 string) stored as parquet LOCATION '/hadoop/test_poc12/par_poc.parquet' ")
import time
import datetime
timestamp = datetime.datetime.fromtimestamp(time.time()).strftime('%Y-%m-%d %H:%M:%S')
#type(timestamp)
from pyspark.sql.functions import lit,unix_timestamp
--read csv file that holds the data
df=spark.read.csv("/user/poc.csv", header='true', inferSchema="false")
--add column to left of table with timestamp values
new_df=df.withColumn('creation_date',unix_timestamp(lit(timestamp),'yyyy-MM-dd HH:mm:ss').cast("timestamp")).select("creation_date","field1","field2")
--save it to hdfs table
new_df.write.save('/hadoop/test_poc12/par_poc.parquet', format='parquet', mode='overwrite')
Вот данные внутри new_df.show ():
Есть идеи, что я делаю неправильно или почему я получаю эту ошибку?