- Я читаю таблицу Hive LLAP в Spark, используя Hive Warehouseconnector.
- Создайте таблицу Temp из вышеприведенного шага, используя createOrReplaceTempView.
- Получите два кадра данных (Temp1 и Temp2 в приведенном нижекод), читая приведенную выше таблицу Temp с использованием spark.sql
- Если я соединяю два кадра данных (Temp1 и Temp2), это дает мне ошибку.
Столкнулся со многими похожими ситуациями;всякий раз, когда я соединяю две таблицы данных / временных таблиц, которые получены из одной базовой таблицы, выдается следующая ошибка:
Не могли бы вы помочь.
val df = temp1.join (temp2, temp1. col ("PRSCBR_ID") === temp2.col ("PRSCBR_ID") и temp1.col ("PAT_ID") === temp2.col ("PAT_ID") и temp1.col ("TO_DATE") === temp2.col ("FROM_DATE"), "left")
19/11/05 14:10:03 Исполнитель ОШИБКИ: исключение в задании 0.3 на этапе 1.0 (TID 4) java.lang.ArrayIndexOutOfBoundsException: 29 atorg.apache.spark.sql.vectorized.ColumnarBatch.column (ColumnarBatch.java:98) в org.apache.spark.sql.catalyst.expressions.GeneratedClass $ GeneratedIteratorForCodegenStage1.datasourcev2scan_nextBatch_0 $ или не найден. sql.catalyst.expressions.GeneratedClass $ GeneratedIteratorForCodegenStage1.processNext (Неизвестный источник) в org.apache.spark.sql.execution.BufferedRowIterator.hasNext (BufferedRowIterator.java:43) в org.apache.spark.sqExCecurity_ec. anonfun $ 10 $$ Анон $ 1.hasNext (цельнаяStageCodegenExec.scala: 614) в org.apache.spark.sql.execution.SparkPlan $$ anonfun $ 2.apply (SparkPlan.scala: 253) в org.apache.spark.sql.execution.SparkPlan $$ anonfun $ 2.apply (SparkPlan.scala: 247) в org.apache.spark.rdd.RDD $$ anonfun $ mapPartitionsInternal $ 1 $$ anonfun $ apply $ 25.apply (RDD.scala: 836) в org.apache.spark.rdd.RDD $$ anonfun$ mapPartitionsInternal $ 1 $$ anonfun $ apply $ 25.apply (RDD.scala: 836) в org.apache.spark.rdd.MapPartitionsRDD.compute (MapPartitionsRDD.scala: 49) в org.apache.spark.rdd.RDD.computeOrReadChepointRDD.scala: 324) в org.apache.spark.rdd.RDD.iterator (RDD.scala: 288) в org.apache.spark.scheduler.ResultTask.runTask (ResultTask.scala: 87) в org.apache.spark.scheduler.Task.run (Task.scala: 109) в org.apache.spark.executor.Executor $ TaskRunner.run (Executor.scala: 345) в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1149) в java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:624) в java.lang.Thread.run (Thread.java:748) 19/11/0514:10:04 Пределы INFO: Пределы счетчика, инициализированные параметрами: GROUP_NAME_MAX = 256, MAX_GROUPS = 500, COUNTER_NAME_MAX = 64, MAX_COUNTERS = 1200 19/11/05 14:13:24 INFO AsyncPbRpcProxy: цикл CallScheduler, выходящий из 19/11/0514:13:48 ИНФОРМАЦИЯ AsyncPbRpcProxy: цикл CallScheduler выходит из