Обработка файла мэйнфрейма с использованием кобрикса в блоках данных - Pyspark python 3 - PullRequest
1 голос
/ 16 января 2020

Кто-нибудь знает, как интегрировать кобрикс в azure databricks - pyspark для обработки файла мэйнфрейма, имеющий столбцы comp-3 (Python 3)

Для получения подробной информации по ссылке ниже. https://github.com/AbsaOSS/cobrix/issues/236#issue -550885564

1 Ответ

2 голосов
/ 30 января 2020

Чтобы сделать сторонний или локально созданный код доступным для ноутбуков и заданий, работающих в ваших кластерах, вы можете установить библиотеку. Библиотеки могут быть записаны в Python, Java, Scala и R. Вы можете загружать библиотеки Java, Scala и Python и указывать на внешние пакеты в репозиториях PyPI, Maven и CRAN.

Действия по установке сторонних библиотек:

Шаг 1: Создание кластера Databricks.

Шаг 2: Выберите созданный кластер.

Шаг 3: Выберите библиотеки => Установить новый => Выберите источник библиотеки = "Maven" => Координаты => Пакеты поиска => Выберите Maven Central => Поиск для пакета требуется. Пример: (spark-cobol, cobol-parser, scode c) => Выберите требуемую версию => Установить

enter image description here

Для получения более подробной информации, см. «Azure Базы данных - библиотеки » и « Cobrix: источник данных мэйнфрейма для Spark SQL и Streaming ».

Надеюсь, это поможет. Дайте нам знать, если у вас есть какие-либо дополнительные вопросы.

...