Вопросы с тегом апаш-искра

0 голосов

0 ответов

проблема совместимости библиотеки при импорте и использовании жирного фляги в Zeppelin

У нас есть полная фляга, которую мы используем на EMR, в которой хранятся все наши искровые задания...

Zach H / 07 ноября 2019

0 голосов

1 ответ

Может ли снижение параллелизма привести к отсутствию случайного разлива?

Рассмотрим пример: У меня есть кластер с 5 узлами, и каждый узел имеет 64 ядра с 244 ГБ памяти. Я...

Venkat Dabri / 07 ноября 2019

0 голосов

2 ответов

Собирать в массив только ненулевые столбцы каждой строки

Сложность в том, что я стараюсь избегать UDF как можно больше. У меня есть набор данных "wordsDS",...

mjat / 07 ноября 2019

0 голосов

0 ответов

Как преобразовать Spark Dense Matrix в Spark Dataframe

Я пытаюсь реализовать некоторый код в Scala Spark, в котором у меня есть мультиклассовая модель...

Regressor / 07 ноября 2019

1 голос

0 ответов

Десериализация Avro Spark

Я отправляю поток данных в Azure EventHub со следующим кодом, использующим Microsoft.Hadoop.Avro .....

m1nkeh / 07 ноября 2019

0 голосов

0 ответов

Исключающие UDAF для параллельной обработки данных на уровне группы, но в каждой группе последовательно обрабатываются строки

Мы подробно обсудили нашу постановку проблемы здесь spark sql: Как добиться параллельной обработки...

3Nath / 07 ноября 2019

0 голосов

2 ответов

Можно ли разделить файлы паркета при хранении в AWS S3?

Я знаю, что файлы паркета разделяются, если они хранятся в хранилище блоков. Например, хранятся в...

Arran Duff / 07 ноября 2019

0 голосов

0 ответов

Возможно ли использовать запросы в стиле Mongo Shell с Spark Cosmos DB Connector?

Я использую Cosmos DB Connector для Spark. Можно ли использовать запросы Mongo Shell "JSON-style" с...

codepringle / 07 ноября 2019

0 голосов

0 ответов

Блоки данных -> Снежинка: ошибка компиляции SQL: Этап: «XYZ» не может быть временным этапом в определении канала

Я пытаюсь материализовать поток из блоков данных в таблицу Snowflake: parsedStream .writeStream

lolejniczak / 07 ноября 2019

0 голосов

0 ответов

ft_one_hot_endcoder или ft_one_hot_encoder_estimator при использовании функции xgboost в sparklyr?

У меня есть много столбцов в моем фрейме данных sparklyr (около 70), некоторые из которых должны...

Chloe Smith / 07 ноября 2019

0 голосов

2 ответов

Разделить один столбец на несколько столбцов в Spark DataFrame с помощью разделителя запятых

Я хочу создать несколько столбцов из одного столбца из Dataframe, используя запятую в Java Spark. У...

Tamil / 07 ноября 2019

0 голосов

2 ответов

ClassCastException на dataset.show

Моя схема: StructField[] fields = new StructField[] { DataTypes.createStructField("id",...

Sterling Duchess / 07 ноября 2019

0 голосов

1 ответ

Как рассчитать память исполнителя, число исполнителей, количество ядер исполнителей и объем памяти драйвера для чтения файла объемом 40 ГБ с помощью Spark?

Конфигурация кластера пряжи: 8 узлов 8 ядер на узел 8 ГБ ОЗУ на узел 1 ТБ жесткий диск на узел

abhisek17 / 07 ноября 2019

1 голос

1 ответ

Как использовать модель MLlib в потоковых запросах (сбои с «полем», функции «не существует»)?

Я пытаюсь использовать сохраненную модель Mllib для прогнозирования настроений при передаче данных...

JoSKa / 07 ноября 2019

0 голосов

1 ответ

Spark: чтение таблиц и фильтрация по разделам

Я пытаюсь понять оценку Спарк. Существует таблица table_name, которая разделена на partition_column

Dawid / 07 ноября 2019

0 голосов

0 ответов

Как найти разницу комбинации данных в Spark Scala?

например: +------+ |items | +------+ | 1| | 14| | 11| | 3| | 0| | 0,13| | 8| | 7| | 7,11| | 13|...

AkhilaV / 07 ноября 2019

0 голосов

2 ответов

Несколько писем на потоковом искре

В своем приложении для потоковой передачи данных я пытаюсь выполнить потоковую передачу данных из...

chaitra k / 07 ноября 2019

0 голосов

0 ответов

Стратегия объединения Spark SQL

Я знаю, что сравнение стратегий объединения - сложная проблема. Но в обычных случаях я могу...

Bostonian / 07 ноября 2019

0 голосов

0 ответов

Динамический ArrayType в искровой CSV

У меня есть CSV, для которого мне нужно создать df, который имеет столбец ArrayType, проблема в том...

Andy Smith / 07 ноября 2019

0 голосов

1 ответ

Оценка основной статистики для таблиц Spark SQL

Я знаю, что мы могли бы явно ANALYZE таблицу в Spark SQL, чтобы мы могли получить некоторую точную...

Bostonian / 07 ноября 2019

0 голосов

0 ответов

Spark: можно ли увеличить буфер пиарроу?

Я пытаюсь передать большой (~ 30 ГБ) фрейм данных в pandas_udf в spark следующим образом: @f

Megan / 07 ноября 2019

0 голосов

1 ответ

Есть ли способ SQL, чтобы узнать размер физической памяти таблицы в Spark SQL

Базовый источник данных хранится в формате Parquet и предоставляется через Hive. Можно ли...

Bostonian / 07 ноября 2019

1 голос

2 ответов

Apache Spark: как 200 задач-редукторов могут агрегировать 20000+ картографических результатов?

Обновленный вопрос Что мне непонятно => в ShuffleMapStage каждый Mapper создаст .data и .index file...

SanBan / 07 ноября 2019

0 голосов

1 ответ

Spark org.postgresql.Driver не найден, хотя настроен EMR

Я пытаюсь записать фрейм данных pyspark в базу данных Postgres со следующим кодом: mode =...

DBA108642 / 07 ноября 2019

0 голосов

0 ответов

Flintrock застрял при перезапуске кластера Spark на AWS

Я использовал Flintrock для запуска кластера Spark на AWS и остановил его после его использования....

Bo Han / 07 ноября 2019