Question

Я пытаюсь получить доступ к таблицам кустов, используя ядро pyspark в блокноте jupyter.Я могу создать сеанс искры, но не могу подключиться к метасольве улья, поэтому не могу получить доступ к моим базам данных.

Я могу получить доступ к базам данных с помощью оболочки спарк, но мне нужно это сделатьтак и в блокноте jupyter.

Я уже пытался упомянуть адрес Thrift-сервера в PYTHON_SUBMIT_ARGS в файле ядра.

Файл ядра Jupyter:

{
"display_name": "PySpark2",
 "language": "python",
 "argv": [
  "/opt/anaconda3/bin/python",
  "-m",
  "ipykernel",
  "-f",
  "{connection_file}"
 ],
 "env": {
  "JAVA_HOME": "/usr/java/jdk1.8.0_191-amd64",
  "HADOOP_CONF_DIR": "/etc/hadoop/conf",
  "HADOOP_CONF_LIB_NATIVE_DIR": "/opt/cloudera/parcels/CDH-5.15.2-1.cdh5.15.2.p0.3/lib/hadoop/lib/native",
  "YARN_CONF_DIR": "/etc/hadoop/conf",
  "PYTHONPATH": "/opt/anaconda3/bin/python3.7:/opt/anaconda3/lib/python3.7/site-packages:/opt/cloudera/parcels/SPARK2-2.4.0.cloudera1-1.cdh5.13.3.p0.1007356/lib/spark2/python:/opt/cloudera/parcels/SPARK2-2.4.0.cloudera1-1.cdh5.13.3.p0.1007356/lib/spark2/python/lib/py4j-0.10.7-src.zip",
  "SPARK_HOME": "/opt/cloudera/parcels/SPARK2-2.4.0.cloudera1-1.cdh5.13.3.p0.1007356/lib/spark2/",
  "PYTHONSTARTUP": "/opt/cloudera/parcels/SPARK2-2.4.0.cloudera1-1.cdh5.13.3.p0.1007356/lib/spark2/python/pyspark/shell.py",
  "PYSPARK_SUBMIT_ARGS": "--master yarn --deploy-mode client pyspark-shell "
 }
}

Нижесообщение из журнала сеанса спарка:

INFO internal.SharedState: для hive.metastore.warehouse.dir ('null') установлено значение spark.sql.warehouse.dir ('file: / home /cda353 / workspace / notebooks / spark-warehouse ').

Насколько я понимаю, при инициализации сеанса spark создается локальное хранилище улья.

Мне нужно понять, какие изменения требуются вмой файл ядра jupyter или какой-либо другой файл свойств, чтобы у сеанса spark был доступ к метастороду улья.Метасторье улья находится на отдельном узле.

Ядро Pyspark в ноутбуке Jupyter - Не удается подключиться к удаленному метастагу улья

Нижесообщение из журнала сеанса спарка:

INFO internal.SharedState: для hive.metastore.warehouse.dir ('null') установлено значение spark.sql.warehouse.dir ('file: / home /cda353 / workspace / notebooks / spark-warehouse ').

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Ядро Pyspark в ноутбуке Jupyter - Не удается подключиться к удаленному метастагу улья

Нижесообщение из журнала сеанса спарка:

INFO internal.SharedState: для hive.metastore.warehouse.dir ('null') установлено значение spark.sql.warehouse.dir ('file: / home /cda353 / workspace / notebooks / spark-warehouse ').

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы