PySpark - Использование Spark Connector для SQL Сервера - PullRequest
0 голосов
/ 10 апреля 2020

Надеюсь, у вас все хорошо.

В настоящее время мы изучаем варианты загрузки SQL серверных таблиц с использованием PySpark в DataBricks. У нас есть различные источники, включая файлы и таблицы. Мы используем python в качестве базы, поскольку ее проще связать с другой существующей кодовой базой.

Вопрос 01:

Нам было рекомендовано использовать Spark Connector для подключения к SQL Сервер (как локальный, так и облачный)?

https://docs.microsoft.com/en-us/azure/sql-database/sql-database-spark-connector

Приведенная выше ссылка от MS ясно показывает, что Scala является зависимостью. Можно ли использовать вышеуказанный разъем только с Scala? Может ли оно быть использовано с Python? Если да, то как нам вызывать драйверы и методы внутри него.

Вопрос 02:

Каков наилучший способ включить / импортировать / получить доступ к библиотекам, драйверам из файлов JAR или другим библиотекам Maven в python код. В python обычно у нас есть модуль, из которого мы импортируем необходимые библиотеки. Скажем, у нас есть несколько библиотек, установленных в Databricks с использованием координат Maven и других автономных JAR-файлов, как нам получить к ним доступ в Python скриптах.

Надеюсь, приведенных выше сведений достаточно. Заранее благодарю всех за помощь и предложения. Приветствия ...

1 Ответ

0 голосов
/ 01 мая 2020

Похоже, кто-то нашел решение, но без контекста Databricks. Пожалуйста, ознакомьтесь со следующим сообщением о переполнении стека: Как использовать azure -sqldb-spark-коннектор в pyspark

А пока вы можете проголосовать и прокомментировать следующий запрос функции UserVoice : Реализация python привязок для azure -sqldb-spark коннектора , который в данный момент находится на рассмотрении.

Сведения о том, что в данный момент поддерживается, см. В ответе Альберто на следующий пост Srack Overflow: Как подключить Azure SQL База данных с Azure Базы данных

...