Ядро Pyspark на ноутбуке Jupyter - PullRequest
0 голосов
/ 29 мая 2020

В настоящее время я использую findspark для получения контекста искры в моем блокноте jupyter. Насколько я понимаю, этот метод поддерживает только RDD, он не поддерживает искровые кадры данных или искру SQL.

Я выполнил инструкции из наиболее понравившейся публикации в этой теме Как запустить pyspark с ноутбуком jupyter?

, но после изменения переменных среды pyspark не запускается , даже в bash. Перед изменением переменных среды в сообщении я сделал AMI и откатил его. Pyspark в настоящее время работает в Bash.

Я заметил, что кто-то еще прокомментировал использование docker. https://hub.docker.com/r/jupyter/all-spark-notebook/

В настоящее время моя система работает под управлением ubuntu 18.04 на EC2. Я установил Apache Spark с linux -brew. Jupyter и findspark устанавливаются в среде Conda.

Цель состоит в том, чтобы иметь ядро ​​pyspark (rspark, any spark) на jupyter, которое могло бы поддерживать все библиотеки из Apache Spark. Я хотел бы запустить Spark на одной машине, чтобы я мог разрабатывать и тестировать код по невысокой цене. Я использовал aws elasti c map reduce для более масштабируемого решения и намереваюсь использовать это после создания сценариев на моей одноузловой искровой машине (чтобы снизить затраты).

несколько вопросов:

  1. достижима ли моя цель, или есть лучший способ получить такие же результаты? (например, просто используйте aws Elasti c Map Reduce с минимальным оборудованием или просто используйте VIM и bash для pyspark)
  2. Было бы лучше использовать Docker (https://hub.docker.com/r/jupyter/all-spark-notebook/), хотя я никогда не использовал docker? Будет ли это хорошо для моей будущей карьеры?
  3. Если Docker - лучший выбор, я бы использовал ec2 ubuntu 18.04 или другую службу Amazon, например ecs.
  4. Мне не хватает небольшого шага, чтобы заставить ядро ​​pyspark работать в моем ноутбуке jupyter?

Другая информация - SPARK_HOME не установлен в моей среде, мне пришлось передать путь конструктору findspark ie. findspark.init('/home/ubuntu/.linuxbrew/Cellar/apache-spark/2.4.5/libexec')

Большое спасибо за уделенное время, надеюсь вопрос был уместным и достаточно подробным

...