Я пытаюсь запустить Hive на Spark некоторое время, и в каждом случае он останавливается со следующей ошибкой на одном или нескольких исполнителях Spark:
java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.(Ljava/io/InputStream;Z)V at
org.apache.spark.io.LZ4CompressionCodec.compressedInputStream(CompressionCodec.scala:122) at
org.apache.spark.broadcast.TorrentBroadcast$$anonfun$6.apply(TorrentBroadcast.scala:304) at
org.apache.spark.broadcast.TorrentBroadcast$$anonfun$6.apply(TorrentBroadcast.scala:304) at
scala.Option.map(Option.scala:146) at org.apache.spark.broadcast.TorrentBroadcast$.unBlockifyObject(TorrentBroadcast.scala:304) at
org.apache.spark.broadcast.TorrentBroadcast$$anonfun$readBroadcastBlock$1$$anonfun$apply$2.apply(TorrentBroadcast.scala:235) at
scala.Option.getOrElse(Option.scala:121) at
org.apache.spark.broadcast.TorrentBroadcast$$anonfun$readBroadcastBlock$1.apply(TorrentBroadcast.scala:211) at
org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1326) at org.apache.spark.broadcast.TorrentBroadcast.readBroadcastBlock(TorrentBroadcast.scala:207) at
org.apache.spark.broadcast.TorrentBroadcast._value$lzycompute(TorrentBroadcast.scala:66) at
org.apache.spark.broadcast.TorrentBroadcast._value(TorrentBroadcast.scala:66) at
org.apache.spark.broadcast.TorrentBroadcast.getValue(TorrentBroadcast.scala:96) at
org.apache.spark.broadcast.Broadcast.value(Broadcast.scala:70) at
org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:84) at
org.apache.spark.scheduler.Task.run(Task.scala:121) at
org.apache.spark.executor.Executor$TaskRunner$$anonfun$10.apply(Executor.scala:403) at
org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360) at
org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:409) at
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)
Я использую Spark 2.4.1 (та же проблема с 2.4.0) и Hive 2.3.4. Пряжа 2.7.5 используется в качестве менеджера задач. Задача Hive выполняется в Spark, но каждый раз, когда я запускаю новый SQL-запрос с использованием Hive, появляется ошибка.
Что может быть решением для решения этой проблемы?
С уважением.