sys.version и ошибка, показывающая разные версии python для задач pyspark - PullRequest
0 голосов
/ 10 октября 2019

Я использую jupyter notebook / pyspark3 на azure кластере. Когда я смотрю на sys.version и sys.executable. Он показывает Python 3, но когда возникает системная ошибка, он показывает, что Python 2 работает. как здесь:

import sys
print(sys.version_info[0], ".",sys.version_info[1], ".", sys.version_info[2])

3.5.2

Но в течение %% времени это дает ошибку (я знаю, что это ошибка), нопоказывает, что работает Python 2.

%%time
rdd = sc.parallelize([1,2,3])
rrdS = rdd.map(lambda x: x*x)
rrdS    

/ usr / bin / anaconda / lib / python2.7 / site-packages / IPython / core / interactiveshell.pyc в run_cell_magic (self,magic_name, line, cell) .... NameError: имя 'sc' не определено

Это неправильное обращение, я думаю, вызывает проблемы, когда я хочу использовать файлы из HDFS. Он застревает, пытаясь получить доступ к файлам из HDFS. Любое предложение?

...