Имеет ли значение WARN Client: файл ресурса с одинаковым путем: ///tmp/programs95923.zip, добавленный несколько раз в распределенный кеш? - PullRequest
1 голос
/ 21 марта 2019

У нас есть большое приложение Apache Spark, работающее в Amazon EMR. Я пытаюсь избавиться от всех сообщений WARN в лог-файле.

Когда наше приложение запускается, мы создаем ZIP-файл исходного кода программы Python, помещаем его в ZIP-файл (здесь) Programs95923.zip и предоставляем ZIP-файл для spark-submit с аргументом --files $ZIPFILE (где $ZIPFILE) - это созданный нами ZIP-файл.

Hm. Кажется, мы также предоставляем ZIPFILE для spark-submit, используя --py-files $ZIPFILE. Я не уверен, почему мы предоставляем это дважды; Я не написал весь этот код.

Вопросы:

  1. Имеет ли значение это предупреждение?
  2. Должны ли мы предоставлять только --files или --py-files, а не оба?

1 Ответ

0 голосов
/ 21 марта 2019

В официальной документации Spark написано :

Для приложений Python просто передайте вместо файла JAR вместо .AR файл .py и добавьте Python .zip., .egg или .py файлы к пути поиска с --py-files.

Поэтому достаточно только параметра --py-files $ZIPFILE.

ОБНОВЛЕНИЕ:

Как уже упоминалось @ vy32, кажется, что сообщение приходит от клиента Spark YARN по линии 437:

https://github.com/apache/spark/blob/master/resource-managers/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala

Также конкретное предупреждение не влияет навыполнение, так как новый ресурс не добавляется в текущий список ресурсов (distribUris), проверьте строки 436 - 446. Поэтому упомянутое предупреждение не повлияет на нормальное выполнение задания Spark.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...