Соединение с базами данных: не удается подключиться к удаленному кластеру в Azure, команда: «проверка соединений с данными» прекращается - PullRequest
1 голос
/ 31 мая 2019

Я пытаюсь настроить Databricks Connect, чтобы иметь возможность работать с удаленным кластером Databricks, уже работающим в Workspace в Azure. Когда я пытаюсь выполнить команду: 'databricks-connect test', она никогда не заканчивается.

Я следую официальной документации .

Я установил последнюю версию Anaconda в версии 3.7. Я создал локальную среду: conda create --name dbconnect python = 3.5

Я установил 'databricks-connect' в версии 5.1, что соответствует конфигурации моего кластера в Azure Databricks.

    pip install -U databricks-connect==5.1.*

Я уже установил 'databricks-connect configure следующим образом:

    (base) C:\>databricks-connect configure
    The current configuration is:
    * Databricks Host: ******.azuredatabricks.net
    * Databricks Token: ************************************
    * Cluster ID: ****-******-*******
    * Org ID: ****************
    * Port: 8787

После описанных выше шагов я пытаюсь запустить команду «test» для подключения блоков данных:

    databricks-connect test

и в результате процедура запускается и останавливается после предупреждения о MetricsSystem, как показано ниже:

    (dbconnect) C:\>databricks-connect test
    * PySpark is installed at c:\users\miltad\appdata\local\continuum\anaconda3\envs\dbconnect\lib\site-packages\pyspark
    * Checking java version
    java version "1.8.0_181"
    Java(TM) SE Runtime Environment (build 1.8.0_181-b13)
    Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)
    * Testing scala command
    19/05/31 08:14:26 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
    Setting default log level to "WARN".
    To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
    19/05/31 08:14:34 WARN MetricsSystem: Using default name SparkStatusTracker for source because neither spark.metrics.namespace nor spark.app.id is set. 

Я ожидаю, что процесс должен перейти к следующим шагам, как в официальной документации :

    * Testing scala command
    18/12/10 16:38:44 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
    Setting default log level to "WARN".
    To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
    18/12/10 16:38:50 WARN MetricsSystem: Using default name SparkStatusTracker for source because neither spark.metrics.namespace nor spark.app.id is set.
    18/12/10 16:39:53 WARN SparkServiceRPCClient: Now tracking server state for 5abb7c7e-df8e-4290-947c-c9a38601024e, invalidating prev state
    18/12/10 16:39:59 WARN SparkServiceRPCClient: Syncing 129 files (176036 bytes) took 3003 ms
    Welcome to
          ____              __
         / __/__  ___ _____/ /__
        _\ \/ _ \/ _ `/ __/  '_/
       /___/ .__/\_,_/_/ /_/\_\   version 2.4.0-SNAPSHOT
          /_/

    Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_152)
    Type in expressions to have them evaluated.
    Type :help for more information.

Таким образом, мой процесс останавливается после 'WARN MetricsSystem: Использование имени по умолчанию SparkStatusTracker'.

Что я делаю не так? Должен ли я настроить что-то еще?

1 Ответ

0 голосов
/ 06 июня 2019

Многие люди видят эту проблему с помощью команды test в Windows. Но если вы попытаетесь использовать Databricks connect, то все будет работать нормально. Кажется безопасным игнорировать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...