Я использую jupyter notebook / pyspark3 на azure кластере. Когда я смотрю на sys.version и sys.executable. Он показывает Python 3, но когда возникает системная ошибка, он показывает, что Python 2 работает. как здесь:
import sys
print(sys.version_info[0], ".",sys.version_info[1], ".", sys.version_info[2])
3.5.2
Но в течение %% времени это дает ошибку (я знаю, что это ошибка), нопоказывает, что работает Python 2.
%%time
rdd = sc.parallelize([1,2,3])
rrdS = rdd.map(lambda x: x*x)
rrdS
/ usr / bin / anaconda / lib / python2.7 / site-packages / IPython / core / interactiveshell.pyc в run_cell_magic (self,magic_name, line, cell) .... NameError: имя 'sc' не определено
Это неправильное обращение, я думаю, вызывает проблемы, когда я хочу использовать файлы из HDFS. Он застревает, пытаясь получить доступ к файлам из HDFS. Любое предложение?