В настоящее время я использую findspark для получения контекста искры в моем блокноте jupyter. Насколько я понимаю, этот метод поддерживает только RDD, он не поддерживает искровые кадры данных или искру SQL.
Я выполнил инструкции из наиболее понравившейся публикации в этой теме Как запустить pyspark с ноутбуком jupyter?
, но после изменения переменных среды pyspark не запускается , даже в bash. Перед изменением переменных среды в сообщении я сделал AMI и откатил его. Pyspark в настоящее время работает в Bash.
Я заметил, что кто-то еще прокомментировал использование docker. https://hub.docker.com/r/jupyter/all-spark-notebook/
В настоящее время моя система работает под управлением ubuntu 18.04 на EC2. Я установил Apache Spark с linux -brew. Jupyter и findspark устанавливаются в среде Conda.
Цель состоит в том, чтобы иметь ядро pyspark (rspark, any spark) на jupyter, которое могло бы поддерживать все библиотеки из Apache Spark. Я хотел бы запустить Spark на одной машине, чтобы я мог разрабатывать и тестировать код по невысокой цене. Я использовал aws elasti c map reduce для более масштабируемого решения и намереваюсь использовать это после создания сценариев на моей одноузловой искровой машине (чтобы снизить затраты).
несколько вопросов:
- достижима ли моя цель, или есть лучший способ получить такие же результаты? (например, просто используйте aws Elasti c Map Reduce с минимальным оборудованием или просто используйте VIM и bash для pyspark)
- Было бы лучше использовать Docker (https://hub.docker.com/r/jupyter/all-spark-notebook/), хотя я никогда не использовал docker? Будет ли это хорошо для моей будущей карьеры?
- Если Docker - лучший выбор, я бы использовал ec2 ubuntu 18.04 или другую службу Amazon, например ecs.
- Мне не хватает небольшого шага, чтобы заставить ядро pyspark работать в моем ноутбуке jupyter?
Другая информация - SPARK_HOME не установлен в моей среде, мне пришлось передать путь конструктору findspark ie. findspark.init('/home/ubuntu/.linuxbrew/Cellar/apache-spark/2.4.5/libexec')
Большое спасибо за уделенное время, надеюсь вопрос был уместным и достаточно подробным