Вопросы с тегом apache-искровые

0 голосов

0 ответов

Невозможно прочитать файл из хранилища BLOB-объектов Azure из Connect Apache Spark от Databrick

Я настроил подключение к базе данных в Azure для запуска моих искровых программ в облаке Azure. Для...

Teja Mvsr / 11 ноября 2019

2 голосов

0 ответов

Периодические сбои запланированного задания Spark в кластере Databricks после нескольких запусков

Текущая настройка - конвейер фабрики данных Azure должен запускаться каждые 15 минут. Запустите...

ValaravausBlack / 06 ноября 2019

0 голосов

1 ответ

Azure Databricks: как добавить конфигурацию Spark в кластер Databricks

Я использую кластер Spark Databricks и хочу добавить настроенную конфигурацию Spark. По этому...

Stark / 04 ноября 2019

1 голос

0 ответов

Как убедиться в правильном порядке столбцов при выполнении spark dataframe.write (). InsertInto ("table")?

Я использую следующий код для вставки данных фрейма данных непосредственно в дельта-таблицу блоков...

Preeti Joshi / 01 ноября 2019

0 голосов

1 ответ

API данных 2.0 - кластер получает ответ - TEMPORARILY_UNAVAILABLE

У меня есть спарк-кластер в Azure Databricks, и я использую C # API для запуска кластера и...

Tusharjain93 / 01 ноября 2019

3 голосов

1 ответ

Искры блоков данных: java.lang.OutOfMemoryError: превышен предел накладных расходов GC.

Я выполняю задание Spark в кластере Databricks. Я запускаю задание через конвейер фабрики данных...

Stark / 31 октября 2019

0 голосов

0 ответов

py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o788.save. : com.mongodb.MongoTimeoutException, WritableServerSelector

Версия Pyspark: 2.4.4 Версия MongoDB: 4.2.0. ОЗУ: 64 ГБ. Ядро ЦП: 32: работает скрипт: spark-submit...

Nithin / 30 октября 2019

0 голосов

1 ответ

Проблемы с длинными линиями (DAG) в искре

Обычно мы используем Spark для обработки данных, хранящихся на S3 или HDFS. Мы используем...

Ridwan / 25 октября 2019

0 голосов

0 ответов

как исправить ошибку «ОШИБКА MongoRDD: ПРЕДУПРЕЖДЕНИЕ: не удалось создать разделы. Не удалось создать разделы с помощью DefaultMongoPartitioner $». в писпарке

Когда я запускаю код локально, он работает нормально, но когда я запускаю на сервере тот же код, я...

Nithin / 24 октября 2019

0 голосов

0 ответов

Блокнот данных отсоединяется в стандартном кластерном режиме

РЕДАКТИРОВАТЬ: Обновление. Это происходит независимо от количества пользователей. Даже с одним...

Erik Hyrkas / 09 октября 2019

0 голосов

0 ответов

Отключить сохранение журналов искр и аргументов заданий в блоках данных Azure

Мне нужно передать конфиденциальную информацию в задания искры через аргументы задания, и мне нужен...

RJ Duquette / 04 октября 2019

0 голосов

1 ответ

Чтение файла CSV и цикл на основе фильтра

У меня есть файл csv в хранилище BLOB-объектов Azure, в котором содержатся подробности, приведенные...

Raj / 30 сентября 2019

0 голосов

1 ответ

У блоков данных spark.read csv есть строка #torefresh

Я собираюсь прочитать csv в dataframe 1. Я создаю структуру 2. load csv spark.read.option ("header"...

Michael Chau / 27 сентября 2019

0 голосов

0 ответов

Ошибка соединения с блоками данных в python с помощью databricks-connect

Я использую databricks-connect на mac, используя pycharm, но после того, как я закончил настройку и...

efsee / 25 сентября 2019

1 голос

1 ответ

объект столбца scala в один столбец данных

У меня есть такой фрейм данных: val df = Seq( ("a", Seq(2.0)), ("a", Seq(1.0)),...

Giacomo Sachs / 25 сентября 2019

9 голосов

3 ответов

Невозможно подключиться кasticsearch из pyspark, но может сделать это из Hive

Я использую приведенный ниже фрагмент для подключения и загрузки данных из Hive вasticsearch (v 6

RAVITEJA SATYAVADA / 19 сентября 2019

0 голосов

3 ответов

группировка по значению ключа pyspark

Я пытаюсь сгруппировать значение (ключ, значение) с помощью apache spark (pyspark). Мне удается...

Logan / 05 июля 2019

1 голос

1 ответ

Изменение захвата данных с помощью дельта-блоков данных с помощью «ВСТАВИТЬ ПЕРЕЗАПИСЬ»

Вместо того, чтобы удалять и выбирать данные, которые я хочу загрузить в свою таблицу Delta, я...

Mihnea / 02 июля 2019

0 голосов

0 ответов

Как развернуть модель тензорного потока на искре, чтобы сделать только вывод

Я хочу развернуть большую модель, например, bert, на спарк, чтобы сделать вывод, так как мне не...

K_Augus / 02 июля 2019

0 голосов

1 ответ

блоки данных - смонтировано S3 - как получить метаданные файла, такие как дата последнего изменения (Python)

Я установил ведро s3 в свои блоки данных и могу видеть список файлов, а также могу читать файлы,...

Brij Raj Singh - MSFT / 01 июля 2019

0 голосов

0 ответов

Прочитать несколько файлов свойств, связанных с приложением, в спаренных блоках данных

Как прочитать несколько файлов свойств в приложении spark, развернутом в кластере Databricks

udyan / 27 июня 2019

1 голос

1 ответ

Запустите блокнот Databricks с кодом PySpark, используя Apache Airflow

Я использую Airflow, Databricks и PySpark. Я хотел бы знать, возможно ли добавить дополнительные...

Eric Bellet / 25 июня 2019

0 голосов

2 ответов

Отбрасывать столбцы разделов при написании паркета в pyspark

У меня есть датафрейм со столбцом даты.Я разобрал его на столбцы год, месяц, день.Я хочу разделить...

Chris / 24 июня 2019

0 голосов

0 ответов

низкая производительность функции pyspark, преобразованной из кода plsql в pySpark, поскольку цикл снижает производительность

Я конвертирую функцию PLSQL в код pyspark для проекта миграции. Существующий сценарий: Запрос...

T-Bag / 21 июня 2019

0 голосов

2 ответов

Как проверить, пустой ли каталог HDFS в Spark

Я использую org.apache.hadoop.fs, чтобы проверить, пуст ли каталог в HDFS или нет.Я посмотрел...

Ashwin Ajmera / 19 июня 2019