Вопросы с тегом апаша-искра

0 голосов

1 ответ

Spark Scala - Получить столбец набора данных и преобразовать в Seq

У меня есть набор данных case class MyDS ( id: Int, name: String ) Я хочу получить все имена в...

Ankit / 27 июня 2019

0 голосов

0 ответов

Управление сетевым трафиком работает pyspark в локальном режиме?

Я запускаю процедуру предварительной обработки с помощью pyspark в локальном режиме на 12-ядерном...

Dae Hyun Lee / 27 июня 2019

0 голосов

1 ответ

Запись файла с использованием FileSystem на S3 (Scala)

Я использую scala и пытаюсь записать файл со строковым содержимым в S3.Я пытался сделать это с...

Ben Haim Shani / 27 июня 2019

1 голос

1 ответ

создать набор данных с фреймом данных из последовательности кортежей без использования case-класса

У меня есть последовательность кортежей, через которые я сделал RDD и преобразовал это в dataframe....

user3190018 / 26 июня 2019

0 голосов

1 ответ

Почему, когда Maven Build работает хорошо, но добавление Spark Jar в качестве внешнего Jars приводит к ошибке компиляции «объект Apache не является членом пакета org»

На Eclipse, при настройке spark, даже после добавления внешних jar-файлов для построения пути к...

user2458922 / 26 июня 2019

1 голос

2 ответов

Spark: фильтр строк на основе значения столбца

У меня миллионы строк в виде фрейма данных, например: val df = Seq(("id1",...

user811602 / 26 июня 2019

1 голос

2 ответов

Невозможно распознать оконную функцию в intellij

Невозможно распознать функцию avg и over в IntelliJ. Это говорит, что не может разрешить символ avg...

Rittik De / 26 июня 2019

0 голосов

1 ответ

Удалить любой ряд с NULL

У меня небольшая проблема.Я хотел бы удалить любую строку, содержащую «NULL». Это мой входной файл:...

Amel ha / 26 июня 2019

0 голосов

0 ответов

Показать сбой вызова с сгруппированным и агрегированным кадром данных

Я пытаюсь использовать сумму после groupBy, например, val b = a.groupBy($"key")

MetallicPriest / 26 июня 2019

0 голосов

1 ответ

Подача заявки без дублирования

Мы используем DataStax Spark 6.0. Мы отправляем задания, используя crontab для запуска каждые 5...

Hyder Tom / 26 июня 2019

0 голосов

1 ответ

Как найти сумму массивов в столбце, который сгруппирован по значениям другого столбца в кадре данных искры, используя scala

У меня есть dataframe, как показано ниже c1 Value A Array[47,97,33,94,6] A Array[59,98,24,83,3] A...

adarsh / 26 июня 2019

0 голосов

0 ответов

Не работает свойство репликации Hadoop из кода искры

Свойство репликации Hadoop не работает из кода зажигания У меня есть сценарий использования, для...

Divya / 26 июня 2019

0 голосов

1 ответ

Поэлементная сумма массива по строкам набора данных - Spark Scala

Я пытаюсь сгруппировать указанный ниже набор данных на основе столбца «id» и поэлементно...

Prem Kumar / 26 июня 2019

0 голосов

2 ответов

Apache Spark: ядра против исполнителей

Вопросы, связанные с ядрами и исполнителями, задаются несколько раз в SO. Apache Spark: количество...

user805 / 26 июня 2019

0 голосов

0 ответов

Как я могу издеваться над доступом к DynamoDB через Spark в Scala?

У меня есть работа Spark, написанная на Scala, которая в конечном итоге записывается в AWS DynamoDB

soapergem / 26 июня 2019

0 голосов

1 ответ

Задача не сериализуема при переборе данных, scala

Ниже приведен мой код, и когда я пытаюсь перебрать каждую строку: val df: DataFrame = sqlContext

user3897533 / 26 июня 2019

4 голосов

2 ответов

Дает ли flatmap лучшую производительность, чем filter + map?

У меня довольно большой набор данных (100 миллионов + записей с сотнями столбцов), которые я...

Sai Kiran KrishnaMurthy / 25 июня 2019

0 голосов

2 ответов

Преобразование фрейма данных в XML в режиме искры исключает исключение нулевого указателя в StaxXML при записи в файловую систему

Я читаю файл xml, используя sparkSession на основе заданного rowTag. Полученный в результате...

CodeHunter / 25 июня 2019

2 голосов

0 ответов

Не удается инициировать контекст H2O для взаимодействия со Spark в R

При выполнении следующего фрагмента кода возникает ошибка преобразования mtcars_tbl в h2o dataframe...

arlugones / 25 июня 2019

0 голосов

1 ответ

Функции MapReduce

Я работаю над проектом spark в IDE затмения, используя scala Мне нужна помощь с этой проблемой...

Amel ha / 25 июня 2019

1 голос

0 ответов

Scala / Java, Суммирование двух столбцов массивов в наборе данных

У меня есть следующий набор данных, в настоящее время использующий UDF для суммирования массивов

prabuster / 25 июня 2019

1 голос

2 ответов

Spark не использует правильную конфигурацию из core-site.xml

Когда я пытаюсь прочитать файл паркета из указанного места, например / test, с помощью spark.read

Hypnotise / 25 июня 2019

0 голосов

0 ответов

Отладка Ливийской работы

У меня есть задание PySpark, которое я отправляю в Livy с помощью Python-клиента . Я бы хотел...

Bolchojeet / 25 июня 2019

0 голосов

0 ответов

py4j.protocol.Py4JError: Произошла ошибка при вызове None.None. Трассировка: ошибка аутентификации: неожиданная команда

Я недавно установил Spark 2.4.3 и получаю следующее исключение при попытке запустить pyspark и не...

ahajib / 25 июня 2019

0 голосов

2 ответов

Создать отдельную строку для типа массива Spark DataFrame

у меня есть следующая схема свечей данных root |-- UserId: long (nullable = true) |--...

Arash / 25 июня 2019