Как подключиться к автономной кассандре с помощью pyspark? - PullRequest
1 голос
/ 04 ноября 2019

Пожалуйста, прости за наивные вопросы, но я новичок в ML & распределенных / no-sql базах данных. Я уже установил автономные Cassandra и pyspark и проверил, что эти установки (проверенная версия pyspark из ноутбука jupyter, созданное пространство ключей / таблица и т. Д.). Моя цель - иметь возможность подключиться к локальному / автономному пространству / таблице ключей Кассандры с помощью pyspark (jupyter).

Я знаю, что есть некоторые темы по схожим темам, но большинство, похоже, связано с datastax-cassandra, а не с автономной версией, и, похоже, нет простого решения о том, как установить anguenot / pyspark-cassandra локальнои заставить работать коннектор.

Вот что у меня пока (windows 10 machine):

  1. Установлен автономный pyspark в моем локальном (C: \ spark \ spark-2.4.4-bin-hadoop2.7)

  2. Установлен автономный Cassandra в моем локальном (C: \ cassandra \ apache-cassandra-3.11.4)

  3. Скачал zip-файл (https://github.com/anguenot/pyspark-cassandra/archive/v0.7.0.zip) (C: \ Users \\ Downloads \ pyspark-cassandra-0.7.0.zip)

  4. По моей командеподскажите (каталог спарк бина), я пытаюсь запустить следующее:

pyspark - py-файлы C: \ Users \\ Downloads \ pyspark-cassandra-0.7.0.zip -пакеты anguenot / pyspark-cassandra: 0.7.0 - conf spark.cassandra.connection.host = 172.0.0.1

Я получаю следующую ошибку:

Traceback (последний вызов был последним): файл «C: \ Users \\ anaconda3 \ Scripts \ jupyter-script.py», строка 9, в sys. exit (main ()) Файл «C: \ Users \\ anaconda3 \ lib \ site-packages \ jupyter_core \ command.py», строка 230, в главной команде = _jupyter_abspath (подкоманда) Файл «C: \ Users \\ anaconda3 \»lib \ site-packages \ jupyter_core \ command.py ”, строка 133, в _jupyter_abspath 'команда Jupyter {} не найдена.'. формат (jupyter_subcommand) Исключение: команда Jupyter jupyter-notebook не найдена.

Предполагая, что установка завершена, следующим шагом будет запуск следующего сценария в pyspark для подключения к cassandra:

из pyspark import SparkContext, SparkConf

из pyspark.sqlimport SQLContext

load_options = {"table": "TABLE_NAME", "keyspace": "KEYSPACE_NAME"}

df = spark.read.format ("org.apache.spark.sql. cassandra "). options (** load_options) .load ()

df.show ()

Спасибо за ваш вклад.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...