Мне наконец-то удалось подключиться к ноутбуку Jupyter, работающему на удаленной машине в контексте PySpark.
[my machine] <----> [hadoop-cluster](runs jupyter notebook in pyspark)
Теперь я могу запустить код на моей удаленной машине с помощью PyCharm:
Конфигурация (удаленного) интерпретатора:
Вот в чем дело: я могу выполнять ячейки, обрабатывать данные и могу plt.plot()
или print()
вещи - но есть одна проблема:
Если я перезапущу ячейку, например
print(nb_total_documents)
вывод снова не отображается. Я должен перезапустить ячейку от 5 до 10 раз, затем выход снова появится.
1. Отображается:
2. Повторный запуск заставляет его исчезнуть:
3. Повторный запуск несколько раз заставляет его появляться снова:
Это может немного расстраивать, особенно для кода, который выполняется дольше.
Единственная ошибка, которую я могу сказать, которая, как я предполагаю, может быть связана, это
Ошибка: не удалось прочитать целочисленное значение из потока
в консоли Python.
Есть идеи, в чем здесь проблема?