Пожалуйста, прости за наивные вопросы, но я новичок в ML & распределенных / no-sql базах данных. Я уже установил автономные Cassandra и pyspark и проверил, что эти установки (проверенная версия pyspark из ноутбука jupyter, созданное пространство ключей / таблица и т. Д.). Моя цель - иметь возможность подключиться к локальному / автономному пространству / таблице ключей Кассандры с помощью pyspark (jupyter).
Я знаю, что есть некоторые темы по схожим темам, но большинство, похоже, связано с datastax-cassandra, а не с автономной версией, и, похоже, нет простого решения о том, как установить anguenot / pyspark-cassandra локальнои заставить работать коннектор.
Вот что у меня пока (windows 10 machine):
Установлен автономный pyspark в моем локальном (C: \ spark \ spark-2.4.4-bin-hadoop2.7)
Установлен автономный Cassandra в моем локальном (C: \ cassandra \ apache-cassandra-3.11.4)
Скачал zip-файл (https://github.com/anguenot/pyspark-cassandra/archive/v0.7.0.zip) (C: \ Users \\ Downloads \ pyspark-cassandra-0.7.0.zip)
По моей командеподскажите (каталог спарк бина), я пытаюсь запустить следующее:
pyspark - py-файлы C: \ Users \\ Downloads \ pyspark-cassandra-0.7.0.zip -пакеты anguenot / pyspark-cassandra: 0.7.0 - conf spark.cassandra.connection.host = 172.0.0.1
Я получаю следующую ошибку:
Traceback (последний вызов был последним): файл «C: \ Users \\ anaconda3 \ Scripts \ jupyter-script.py», строка 9, в sys. exit (main ()) Файл «C: \ Users \\ anaconda3 \ lib \ site-packages \ jupyter_core \ command.py», строка 230, в главной команде = _jupyter_abspath (подкоманда) Файл «C: \ Users \\ anaconda3 \»lib \ site-packages \ jupyter_core \ command.py ”, строка 133, в _jupyter_abspath 'команда Jupyter {}
не найдена.'. формат (jupyter_subcommand) Исключение: команда Jupyter jupyter-notebook
не найдена.
Предполагая, что установка завершена, следующим шагом будет запуск следующего сценария в pyspark для подключения к cassandra:
из pyspark import SparkContext, SparkConf
из pyspark.sqlimport SQLContext
load_options = {"table": "TABLE_NAME", "keyspace": "KEYSPACE_NAME"}
df = spark.read.format ("org.apache.spark.sql. cassandra "). options (** load_options) .load ()
df.show ()
Спасибо за ваш вклад.