Я решаю проблему.Проблема заключалась в версиях всех инструментов:
Загрузка и установка Java SE Runtime Version 8.
Загрузка и установка Java SEКомплект разработчика 8.
Вы можете скачать и установить полноценную Анаконду или использовать миниконду.
Этот вредоносный пиджак является частью Hadoop и требуется Spark для работы в Windows.Быстрая установка, откройте Powershell (как администратор) и запустите (если вы работаете в корпоративной сети с защитой в стиле фанк, вам может понадобиться загрузить exe вручную):
New-Item -Path "C:\Hadoop\Bin" -ItemType Directory -Force
Invoke-WebRequest -Uri https://github.com/steveloughran/winutils/raw/master/hadoop-2.7.1/bin/winutils.exe -OutFile "C:\Hadoop\Bin\winutils.exe"
[Environment]::SetEnvironmentVariable("HADOOP_HOME", "C:\Hadoop", "Machine")
- Создать виртуальную среду
Мы теперь новая виртуальная среда.Я рекомендую создать одну среду для проекта, над которым вы работаете.Это позволяет нам устанавливать разные версии Databricks-Connect для каждого проекта и обновлять их отдельно.
В меню «Пуск» найдите подсказку Anaconda.Когда он откроется, у него будет приглашение по умолчанию, например:
(базовый) C: \ Users \ User Базовая часть означает, что вы находитесь не в виртуальной среде, а при базовой установке.Для создания новой среды выполните следующее:
conda create --name dbconnect python=3.5
Где dbconnect - это имя вашей среды и может быть тем, что вы хотите.В настоящее время Databricks запускает Python 3.5 - ваша версия Python должна совпадать.Опять же, это еще одна веская причина наличия среды для каждого проекта, поскольку в будущем это может измениться.
Теперь все готово:
pip install -U databricks-connect==5.3.*
databricks-connect configure
- Создать кластер Databricks (в данном случае я использовал Amazon Web Services)
spark.databricks.service.server.enabled true
spark.databricks.service.port 15001 (Amazon 15001, Azure 8787)
- Отключите брандмауэр Защитника Windows или разрешите доступ.