Настройка Livy с Cloudera 5.14 и Spark2: Livy не может найти свои собственные файлы JAR - PullRequest
0 голосов
/ 09 июня 2018

Я новичок в Cloudera и пытаюсь перенести рабочие нагрузки с HDP-сервера под управлением Ambari с Livy и Spark 2.2.x на CDH 5-сервер с аналогичной настройкой.Поскольку Livy не является компонентом Cloudera, я использую инкубацию версии 0.5.0 со своего веб-сайта и запускаю ее на одном из тех же серверов, что и мастера YARN, Spark и HDFS.

Короче говоря, очень и очень долго, когда я пытаюсь отправить в Livy, я получаю следующее сообщение об ошибке:

Diagnostics: File file:/home/livy/livy-0.5.0-incubating-bin/rsc-jars/livy-rsc-0.5.0-incubating.jar does not exist
java.io.FileNotFoundException: File file:/home/livy/livy-0.5.0-incubating-bin/rsc-jars/livy-rsc-0.5.0-incubating.jar does not exist
    at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:598)
    at org.apache.hadoop.fs.RawLocalFileSystem.getFileLinkStatusInternal(RawLocalFileSystem.java:811)
    at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:588)
    at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:432)
    at org.apache.hadoop.yarn.util.FSDownload.copy(FSDownload.java:251)
    at org.apache.hadoop.yarn.util.FSDownload.access$000(FSDownload.java:61)
    at org.apache.hadoop.yarn.util.FSDownload$2.run(FSDownload.java:364)
    at org.apache.hadoop.yarn.util.FSDownload$2.run(FSDownload.java:362)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1920)
    at org.apache.hadoop.yarn.util.FSDownload.call(FSDownload.java:361)
    at org.apache.hadoop.yarn.util.FSDownload.call(FSDownload.java:60)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)

Failing this attempt. Failing the application.

Jar, на который он ссылается, является частью установки Livy,и, очевидно, существует.Похоже, что в какой-то момент процесса Hadoop ищет файл с URL file:/home... вместо /home... или file:///home..., но я не уверен, что это даже уместно, поскольку это может быть допустимымпуть для HDFS.Я дошел до создания нескольких версий Livy из исходного кода, изменения сценария запуска и удаленной отладки, но, похоже, эта ошибка возникает где-то в Spark.

Вот мой livy.conf файл:

# What spark master Livy sessions should use.
livy.spark.master = yarn

# What spark deploy mode Livy sessions should use.
livy.spark.deploy-mode = cluster

livy.file.upload.max.size  300000000

И livy-env.sh:

export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH-5.14.2-1.cdh5.14.2.p0.3/etc/hadoop
export SPARK_HOME=/opt/cloudera/parcels/SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957/lib/spark2
export HADOOP_HOME=/opt/cloudera/parcels/CDH-5.14.2-1.cdh5.14.2.p0.3/lib/hadoop

Старый кластер использовал Hadoop 2.7.3.2.6.5.0-141 и Spark 2.2.1.Новый кластер работает под управлением Hadoop 2.6.0-cdh5.14.2 и Spark 2.2.0.cloudera2.Использование дистрибутива Livy старого кластера, а также собственного дистрибутива Cloudera Livy дало одну и ту же основную ошибку.Опять же, все это прекрасно работало на предыдущем кластере HDP / Ambari.

Все эти файлы JAR существуют по этому пути на каждом узле, и я также пробовал это с файлами JAR в HDFS - Livy извлекает их, а затем выдает то же сообщение об ошибке для извлеченных файлов JAR.Я также пробовал кучу вещей с разрешениями, но, похоже, ничего из этого не работает.Например, я получаю:

18/06/09 00:13:12 INFO util.LineBufferedStream: (stdout: ,18/06/09 00:13:11 INFO yarn.Client: Uploading resource hdfs://some-server:8020/user/livy/jars/livy-examples-0.4.0-SNAPSHOT.jar -> file:/home/livy/.spar
kStaging/application_1528398117244_0054/livy-examples-0.4.0-SNAPSHOT.jar)

с выхода Ливи, а затем ...

Diagnostics: File file:/home/livy/.sparkStaging/application_1528398117244_0054/livy-examples-0.4.0-SNAPSHOT.jar does not exist
java.io.FileNotFoundException: File file:/home/livy/.sparkStaging/application_1528398117244_0054/livy-examples-0.4.0-SNAPSHOT.jar does not exist
at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:598)
...

от неизбежного сбоя YARN.

У кого-нибудь есть мысли?Будем рады даже услышать альтернативы Ливии, если таковые имеются ...

1 Ответ

0 голосов
/ 14 июня 2018

Я исправил это, построив Livy из Cloudera repo со строкой mvn clean package -DskipTests -Dspark-2.2.0.cloudera2 -Dscala-2.10.Эта версия устарела, имеет испорченный пользовательский интерфейс, некоторые тесты Scala не пройдены, поэтому их нужно пропустить, и я не стал задумываться о том, как и почему указание 2.2.0.cloudera2 работает.Мне также пришлось установить Hue и его зависимые сервисы в кластере.Никакой другой дистрибутив Livy, бинарный или исходный, не работал.

...