Надеюсь, что кто-то может помочь с ошибкой, с которой мы столкнулись.
Обзор: Наш кластер является кластером Datalab, и пользователям потребуется доступ к кластеру Juggernaut (источник данных).
мы попробовали прочитатьиспользуя следующие коды: sql.Context.parquetFile ("hdfs: // juggernaut / data / dw / usa / cem_mbb / flowCell / date = 20181009") sqlContext.reload.load ("hdfs: // juggernaut / data / dw /usa / cem_mbb / flowCell / date = 20181009 ")
sqlContext.read.parquet (" hdfs: // juggernaut / data / dw / usa / cem_mbb / flowCell / date = 20181009 ")
- Запуск на локальном Spark - Вывод: OK
- Запуск Spark на Scala - обнаружен журнал ошибок ниже .
Мы продолжаемс ошибкой ниже в Spark.
18/10/17 17:59:05 ПРЕДУПРЕЖДЕНИЕ TaskSetManager: Потерянное задание 1.0 на этапе 0.0 (TID 1, hdp007-r1.datalab.smart.local.ph): java.io.IOException: Не удалось прочитать нижний колонтитул: java.io.IOException: Не удалось прочитать нижний колонтитул для файла FileStatus {path = hdfs: // juggernaut / data / dw / usa / cem_mbb / flowCell / дата = 20181009/09-часть-01-usa_cem_mbb_sdr_flowCell-20181009154019-р-00000.parquet;isDirectory = ложь;длина = 1070652650;Репликация = 0;размер_блок = 0;MODIFICATION_TIME = 0;access_time = 0;владелец =;группа =;разрешение = RW-RW-rw-;isSymlink = false} в org.apache.parquet.hadoop.ParquetFileReader.readAllFootersInParallel (ParquetFileReader.java:247) в org.apache.spark.sql.execution.datasources.parquet.ParquetRelation $$ anonfunRelation: $ 27.apply:786) в org.apache.spark.sql.execution.datasources.parquet.ParquetRelation $$ anonfun $ 27.apply (ParquetRelation.scala: 775) в org.apache.spark.rdd.RDD $$ anonfun $ mapPartitions $ 1 $$ anonfun$ apply $ 22.apply (RDD.scala: 717) в org.apache.spark.rdd.RDD $$ anonfun $ mapPartitions $ 1 $$ anonfun $ apply $ 22.apply (RDD.scala: 717) в org.apache.spark.rdd.MapPartitionsRDD.compute (MapPartitionsRDD.scala: 38) в org.apache.spark.rdd.RDD.computeOrReadCheckpoint (RDD.scala: 313) в org.apache.spark.rdd.RDD.iterator (RDD.scala: 277)в org.apache.spark.scheduler.ResultTask.runTask (ResultTask.scala: 66) в org.apache.spark.scheduler.Task.run (Task.scala: 89) в org.apache.spark.executor.Executor $ TaskRunner.run (Executor.scala: 227) в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1149) в java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:624) в java.lang.Thread.run (Thread.java:748) Причина: java.io.IOException: Не удалось прочитать нижний колонтитул дляfile FileStatus {path = hdfs: //juggernaut/data/dw/usa/cem_mbb/flowCell/date=20181009/09-part-01-usa_cem_mbb_sdr_flowCell-20181009154019-r-00000.parquet;isDirectory = ложь;длина = 1070652650;Репликация = 0;размер_блок = 0;MODIFICATION_TIME = 0;access_time = 0;владелец =;группа =;разрешение = RW-RW-rw-;isSymlink = false} в org.apache.parquet.hadoop.ParquetFileReader $ 2.call (ParquetFileReader.java:239) в org.apache.parquet.hadoop.ParquetFileReader $ 2.call (ParquetFileReader.java:233) в java.util.con.FutureTask.run (FutureTask.java:266) ... еще 3