pyarrow через spark-submit в режиме кластера не работает - PullRequest
0 голосов
/ 05 июля 2018

У меня есть простой код Pyspark

импорт пиарроу fs = pyarrow.hdfs.connect ()

Если я запускаю это с помощью spark-submit в режиме «клиент», он работает нормально, но в режиме «кластер» выдает ошибку

Traceback (most recent call last):
  File "t3.py", line 17, in <module>
    fs = pa.hdfs.connect()
  File "/opt/anaconda/3.6/lib/python3.6/site-packages/pyarrow/hdfs.py", line 181, in connect
    kerb_ticket=kerb_ticket, driver=driver)
  File "/opt/anaconda/3.6/lib/python3.6/site-packages/pyarrow/hdfs.py", line 37, in __init__
    self._connect(host, port, user, kerb_ticket, driver)
  File "io-hdfs.pxi", line 99, in pyarrow.lib.HadoopFileSystem._connect
  File "error.pxi", line 79, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: HDFS connection failed

Все необходимые библиотеки Python установлены на каждом узле в моем кластере Hadoop. Я проверил, проверяя этот код в pyspark для каждого узла в отдельности.

Но не может заставить его работать через spark-submit в режиме кластера?

Есть идеи?

Шанкар

...