Существует фрейм данных hdfs parquet, называемый пол.
gender = spark.read.parquet('/user/path/grass_date=2019-03-06')
после чтения паркета мы получаем схему:
DataFrame[userid: bigint, gender_scores: double, predicted_gender: bigint]
наконец, мы создаем таблицу кустов с помощью этой команды:
CREATE TABLE gender_history
USING org.apache.spark.sql.parquet
OPTIONS (path='/user/path/grass_date=2019-03-06')
некоторые люди выбирают команду *, которая выдает ниже исключение:
пол_счета в файле hdfs: // scluster / user / path / grass_date = 2019-03-06 /part-00008-c961a5f3-4126-45bf-8487-38b07377dbcb-c000.snappy.parquet объявлен как тип real , но файл столбца объявил тип столбца как DOUBLE .
Я хочу знать, что вызвало эту проблему и как мне ее исправить.Спасибо всем!