Вопросы с тегом databricks

0 голосов

1 ответ

передача объекта в UDF в pyspark

Мне нужно применить метод к каждой ячейке столбца в Spark DataFrame. Я использую базу данных для...

MOH / 02 ноября 2019

0 голосов

0 ответов

Повторение прогнозов с данными временных рядов с использованием GBTRegressor в Pyspark

У меня большой набор данных, состоящий из тысяч уникальных товаров и ежемесячных данных о продажах....

MWittenberg / 01 ноября 2019

0 голосов

0 ответов

Перенос данных из монитора Azure в базу данных SQL Azure.

Мы регистрируем данные в мониторе Azure (в рабочей области Log Analytics) из блоков данных. Мы...

user11899725 / 01 ноября 2019

0 голосов

1 ответ

Эффективное выполнение на фреймах данных PySpark / Delta

Используя pyspark / Delta lakes на Databricks, у меня есть следующий сценарий: sdf = spark.read

casparjespersen / 01 ноября 2019

0 голосов

0 ответов

Динамический стержень в databricks / spark SQL?

При повороте в SQL (кирпичи данных / спарк SQL), есть ли способ динамически установить часть "in"...

user43107 / 01 ноября 2019

1 голос

0 ответов

Как убедиться в правильном порядке столбцов при выполнении spark dataframe.write (). InsertInto ("table")?

Я использую следующий код для вставки данных фрейма данных непосредственно в дельта-таблицу блоков...

Preeti Joshi / 01 ноября 2019

0 голосов

1 ответ

API данных 2.0 - кластер получает ответ - TEMPORARILY_UNAVAILABLE

У меня есть спарк-кластер в Azure Databricks, и я использую C # API для запуска кластера и...

Tusharjain93 / 01 ноября 2019

0 голосов

0 ответов

Как добиться параллелизма в блокноте Databricks?

Я хочу иметь параллелизм в Databricks, что означает, что мой код будет использовать ядра процессора...

Anirban Nag 'tintinmj' / 01 ноября 2019

3 голосов

1 ответ

Искры блоков данных: java.lang.OutOfMemoryError: превышен предел накладных расходов GC.

Я выполняю задание Spark в кластере Databricks. Я запускаю задание через конвейер фабрики данных...

Stark / 31 октября 2019

1 голос

1 ответ

Spark прочитал CSV - не показываются записи

Spark имеет режим Permissive для чтения файлов CSV, в котором записанные записи хранятся в...

Gaurang Shah / 30 октября 2019

0 голосов

1 ответ

Невозможно аутентифицировать Looker API в Databricks с использованием Python

Я хочу получить доступ к некоторым диаграммам, которые я сохранил в Looker, в Databricks. Частью...

Tina / 30 октября 2019

0 голосов

1 ответ

Поддерживает ли Delta Lake обновление с помощью join?

Можно ли выполнить обновление таблицы дельты озера с помощью соединения? В mysql (и других базах...

Ridwan / 30 октября 2019

0 голосов

2 ответов

Код Python из Databricks для подключения к SQL-серверу

Я пытаюсь выполнить код Python из Databricks, который в основном устанавливает соединение между...

Sathya / 30 октября 2019

0 голосов

1 ответ

Разобрать столбец, который является объектом json

Я хотел бы запросить этот столбец, который является объектом JSON. | x | y | z |...

Mariana Lungu / 29 октября 2019

0 голосов

2 ответов

Изменить формат даты из массива в операторе SQL SELECT

У меня есть столбец updated_at , который возвращает массив ["2019-01-05T17:28:32

Mariana Lungu / 29 октября 2019

0 голосов

0 ответов

Удалите папку в blob более эффективным способом

Предположим, я собираюсь удалить папку из BLOB-объекта из блоков данных. однако, когда папка не...

Michael Chau / 29 октября 2019

0 голосов

1 ответ

Может кто-нибудь объяснить, что происходит в приведенном ниже фрагменте кода? Я пытаюсь понять приведенный ниже код Scala

import org.apache.spark.sql.functions._ def expr(myCols: Set[String], allCols: Set[String]) =...

NewCode / 28 октября 2019

0 голосов

1 ответ

Выражение Cron для задания расписания Databricks

Мне нужно запланировать работу в блоках данных, которые должны выполняться в 6 утра, 6,15, 6,30, 6...

user11899725 / 28 октября 2019

1 голос

2 ответов

При чтении CSV есть возможность начать со строки 2 или ниже?

Я читаю кучу файлов CSV в кадре данных, используя приведенный ниже пример кода. val df = spark.read

asher / 28 октября 2019

0 голосов

2 ответов

извлекать теги из столбца Dataframe

У меня есть датафрейм с данными из записной книжки Python для Azure Consumtion Databricks. Я...

DejanS / 27 октября 2019

0 голосов

1 ответ

Блоки данных: доступ к учетной записи хранения за конкретным vnet

Я хотел бы получить несколько советов по поводу блоков данных для доступа к учетной записи...

Michael Chau / 27 октября 2019

0 голосов

1 ответ

ошибки несогласованных версий Python для рабочих и драйверов на кластерах блоков данных

Я использую код Python3 на кластерах блоков данных из Eclipse на MacBook. Когда я запускаю: spark =...

user3448011 / 27 октября 2019

0 голосов

0 ответов

Что делает server.databricks.analysis?

Я изучаю код, который изучает журналы полетов в начале, которое они называют from server.databricks

Nickson Ndangalasi / 26 октября 2019

0 голосов

0 ответов

Почему pyspark завершается с ошибкой «Ошибка при создании экземпляра org.apache.spark.sql.internal.SessionStateBuilder '»?

При попытке настроить Pyspark и запустить его на PyCharm (через Databricks с AWS) я получаю...

Kenny Evans / 26 октября 2019

0 голосов

1 ответ

Проблемы с длинными линиями (DAG) в искре

Обычно мы используем Spark для обработки данных, хранящихся на S3 или HDFS. Мы используем...

Ridwan / 25 октября 2019