Вопросы с тегом апаш-искра

0 голосов

0 ответов

Установка размера группы строк в hdfs

Я пытаюсь установить размер блока и размер группы строк для моего экземпляра hdfs для тестирования

user3685285 / 13 ноября 2018

0 голосов

0 ответов

Как производится холодный запуск в Spark ALS на производстве?

Извлечено из документации о совместной фильтрации в Spark с использованием ALS: По умолчанию Spark...

Rushdi Shams / 13 ноября 2018

0 голосов

2 ответов

Извлечение значений из Scala WrappedArray

Я работаю с моделью ALS Apache Spark, а метод рекомендуемаяForAllUsers возвращает фрейм данных со...

Miguel A. Friginal / 13 ноября 2018

0 голосов

0 ответов

Как оптимизировать производительность для тысяч быстро выполняющихся заданий в Apache Spark?

Я выполняю SQL-запрос Spark для нескольких столбцов информационного кадра с 200 разделами. Это...

Cuurie / 13 ноября 2018

0 голосов

3 ответов

Создать столбец массива из других столбцов после обработки значений столбца

Допустим, у меня есть искровой фрейм данных, который включает в себя категориальные столбцы (школа,...

John Subas / 13 ноября 2018

0 голосов

1 ответ

Как извлечь схему Geojson с искрой

У меня есть файл Geojson, и я хочу извлечь схему (structtype), соответствующую с помощью spark....

Mak / 13 ноября 2018

0 голосов

1 ответ

Почему PySpark выполняет только оператор по умолчанию в моем пользовательском `SQLTransformer`

Я написал кастом SQLTransformer в PySpark.И установка оператора SQL по умолчанию обязательна для...

Bentech / 13 ноября 2018

0 голосов

0 ответов

Spark DataFrame: присоединение застряло на одной сцене

Я работаю над объединением двух больших наборов данных с количеством строк 17M и 2,2M. Размер...

Akul Narang / 13 ноября 2018

0 голосов

0 ответов

Как реализовать оператор BitwiseOR в одном столбце с группировкой в SPARK SQL

Существует одно требование для реализации побитовой операции ИЛИ в одном столбце на основе группы с...

SrinivasaRao G / 13 ноября 2018

0 голосов

0 ответов

Как сделать запрос с Spark SQL UDT

Я пишу UDT для LocaleDateTime, который спарк SQL не поддерживает изначально class LocalDateTimeUDT...

Tom / 13 ноября 2018

0 голосов

1 ответ

Суррогатные ключи с использованием Apache Spark

У нас есть основанная на событиях инфраструктура, в которой мы используем потоковую передачу Kafka...

RajData / 13 ноября 2018

0 голосов

3 ответов

Как сгруппировать и агрегировать несколько полей с использованием combByKey RDD?

У меня есть пример файла, который я пытаюсь выяснить для данного поля общее число другого поля и...

Karthik Ramachandran / 13 ноября 2018

0 голосов

0 ответов

Узел кластера EMR не работает - невозможно получить доступ к таблицам кустов

Я выполняю свою искровую работу в кластере Emr, и я использую Hive Tables в качестве источника...

Sundeep Pidugu / 13 ноября 2018

0 голосов

2 ответов

Spark SQL: возможно ли читать пользовательскую схему из внешнего источника вместо ее создания в коде искры?

Попытка загрузить CSV-файл без вывода схемы. Обычно мы создаем схему как StructType в коде искры....

Lucky / 13 ноября 2018

0 голосов

0 ответов

Пул обработчика запросов Kafka уменьшается при записи с использованием Spark

У меня блестящая работа. Когда он начинает запись в Kafka, его пул обработчиков запросов настолько...

guru107 / 13 ноября 2018

0 голосов

2 ответов

Spark SQL с Scala: предупреждение об устаревании для registerTempTable

получая это предупреждение ниже при попытке создать временную таблицу, помогите решить это...

palanivel / 13 ноября 2018

0 голосов

1 ответ

Могу ли я использовать нажатие кнопки для запуска заметки Zeppelin вместо ее запуска при вводе текста?

Итак, я использую элементы управления, такие как z.input, для ввода пользовательских данных в...

AlexScalar / 13 ноября 2018

0 голосов

1 ответ

SnowFlake Datawarehouse: «показать таблицы» и создать таблицу с помощью spark

У меня есть 2 вопроса относительно spark и хранилища данных Snowflake. 1) Есть ли способ запросить...

Ram Ghadiyaram / 12 ноября 2018

0 голосов

0 ответов

Много предупреждений в Spark 2.3 с spark.read.json; подклассы привели к отсутствию возможных кандидатов

Я знаю, что мы можем запустить spark-shell с ошибкой в журналах, но есть ли объяснение этим...

RobbieTheK / 12 ноября 2018

0 голосов

1 ответ

Spark Graphx java.lang.OutOfMemoryError

У меня проблема с модулем Spark GraphX. У меня кластер из 5 узлов, с 23,5 ГБ памяти и 24 ядрами на...

Sedir Mohammed / 12 ноября 2018

0 голосов

1 ответ

Как использовать sqrt на Double в Spark Scala

Я пытаюсь вычислить среднеквадратическую ошибку (RMSE) вручную на Spark (Scala 2.11) Как показано...

Haha TTpro / 12 ноября 2018

0 голосов

0 ответов

Как выделить 16 ядер и 64 ГБ ОЗУ в локальном режиме spark 2.0.2?

Я новичок в использовании spark и пытаюсь вычислить огромные данные и отправить их в целевую базу...

Prorsum J / 12 ноября 2018

0 голосов

1 ответ

Как читать разные форматы разделов в Avro от S3 до Spark?

У меня S3 bucket с двумя форматами разделов: S3: // bucketname / имя_таблицы / год / месяц / день...

John Hass / 12 ноября 2018

0 голосов

0 ответов

Почему класс Spillable Spark использует только память Heap?

Я прочитал исходный код спарк главной ветки (2018/11), который будет опубликован в версии спарк 2.5

yeshang / 12 ноября 2018

0 голосов

0 ответов

Запись данных в JSON как единый объект

У меня есть фрейм данных, который я пытаюсь записать в папку S3 в виде JSON. df.printSchema root...

dreddy / 12 ноября 2018