Существует как минимум два способа сделать это, примерно соответствующие двум вариантам, предложенным в сообщении об ошибке:
Первый способ - соответственно обновить соответствующее ядро Jupyter (если вы еще не используете ядра Jupyter, вы должны - см. этот ответ для подробного описания использования ядер в Jupyter для Pyspark).
В частности, вы должны обновить соответствующий файл конфигурации kernel.json
для Pyspark, введя следующую запись в env
(если вы используете что-то другое, чем --master local
, измените соответственно):
"PYSPARK_SUBMIT_ARGS": "--master local --packages org.apache.spark:spark-streaming-kafka-0-8:2.3.0 pyspark-shell"
Второй способ заключается в добавлении в файл spark-defaults.conf
следующей записи:
spark.jars.packages org.apache.spark:spark-streaming-kafka-0-8:2.3.0
В обоих случаях вам не нужно ничего скачивать вручную - при первом запуске Pyspark с обновленной конфигурацией необходимые файлы будут загружены и помещены в соответствующие каталоги.