Я пытаюсь получить доступ к таблицам кустов, используя ядро pyspark в блокноте jupyter.Я могу создать сеанс искры, но не могу подключиться к метасольве улья, поэтому не могу получить доступ к моим базам данных.
Я могу получить доступ к базам данных с помощью оболочки спарк, но мне нужно это сделатьтак и в блокноте jupyter.
Я уже пытался упомянуть адрес Thrift-сервера в PYTHON_SUBMIT_ARGS в файле ядра.
Файл ядра Jupyter:
{
"display_name": "PySpark2",
"language": "python",
"argv": [
"/opt/anaconda3/bin/python",
"-m",
"ipykernel",
"-f",
"{connection_file}"
],
"env": {
"JAVA_HOME": "/usr/java/jdk1.8.0_191-amd64",
"HADOOP_CONF_DIR": "/etc/hadoop/conf",
"HADOOP_CONF_LIB_NATIVE_DIR": "/opt/cloudera/parcels/CDH-5.15.2-1.cdh5.15.2.p0.3/lib/hadoop/lib/native",
"YARN_CONF_DIR": "/etc/hadoop/conf",
"PYTHONPATH": "/opt/anaconda3/bin/python3.7:/opt/anaconda3/lib/python3.7/site-packages:/opt/cloudera/parcels/SPARK2-2.4.0.cloudera1-1.cdh5.13.3.p0.1007356/lib/spark2/python:/opt/cloudera/parcels/SPARK2-2.4.0.cloudera1-1.cdh5.13.3.p0.1007356/lib/spark2/python/lib/py4j-0.10.7-src.zip",
"SPARK_HOME": "/opt/cloudera/parcels/SPARK2-2.4.0.cloudera1-1.cdh5.13.3.p0.1007356/lib/spark2/",
"PYTHONSTARTUP": "/opt/cloudera/parcels/SPARK2-2.4.0.cloudera1-1.cdh5.13.3.p0.1007356/lib/spark2/python/pyspark/shell.py",
"PYSPARK_SUBMIT_ARGS": "--master yarn --deploy-mode client pyspark-shell "
}
}
Нижесообщение из журнала сеанса спарка:
INFO internal.SharedState: для hive.metastore.warehouse.dir ('null') установлено значение spark.sql.warehouse.dir ('file: / home /cda353 / workspace / notebooks / spark-warehouse ').
Насколько я понимаю, при инициализации сеанса spark создается локальное хранилище улья.
Мне нужно понять, какие изменения требуются вмой файл ядра jupyter или какой-либо другой файл свойств, чтобы у сеанса spark был доступ к метастороду улья.Метасторье улья находится на отдельном узле.