Вопросы с тегом апаш-искра

0 голосов

1 ответ

данные искры читаются со строкой в кавычках

У меня есть файл данных csv, как указано ниже, каждая строка завершается возвратом каретки ('\ r') ...

Chirag Karnawat / 13 декабря 2018

0 голосов

3 ответов

Spark, Scala: Как удалить пустые строки из Rdd или из dataframe?

Я использую искру на scala. И у меня есть несколько пустых строк в Rdd.Мне нужно удалить их из Rdd....

Patty / 13 декабря 2018

0 голосов

4 ответов

улей внешний стол на паркете не выбирает данные

Я пытаюсь создать линию данных, в которой несоответствующие данные сохраняются в паркете, и я...

Ajith Kannan / 13 декабря 2018

0 голосов

1 ответ

DataFrame Spark принимает (MAX-MIN) для каждой группы

у меня есть кадр данных из обрабатывающей части, выглядит следующим образом:...

SimbaPK / 13 декабря 2018

0 голосов

1 ответ

Как читать несколько файлов в разных папках одновременно, используя спарк?

Я пытаюсь прочитать несколько файлов по разным путям одновременно.На сервере sql путь "/mapr/ia1

Cathy / 13 декабря 2018

0 голосов

1 ответ

Запись большого DataFrame из PySpark в Kafka заканчивается временем ожидания

Я пытаюсь записать фрейм данных, который содержит около 230 миллионов записей для Кафки.В частности...

silent / 13 декабря 2018

0 голосов

0 ответов

Создать индекс через SPARK для JDBC

Я пытаюсь создать индекс на Postgres Table через Spark, а код выглядит следующим образом: val df3 =...

Hadoop User / 13 декабря 2018

0 голосов

1 ответ

Как использовать функцию преобразования высшего порядка?

Это примерно transform функция высшего порядка (https://issues.apache.org/jira/browse/SPARK-23908)....

MitakaJ9 / 13 декабря 2018

0 голосов

1 ответ

Как справиться с ошибкой исполнителя в apache spark

Я выполнил задание, используя spark-submit, в то время как мы потеряли исполнителя и определенную...

G Sreenathreddy / 13 декабря 2018

0 голосов

0 ответов

Как Apache Spark выполняет этапы внутри работы?

Я пытаюсь понять, как Spark управляет планом выполнения этапов в задании.Я проверил много контента...

YACINE GACI / 13 декабря 2018

0 голосов

0 ответов

Проблема с производительностью объединения нескольких наборов данных Spark

Итак, в настоящее время у меня есть таблица, похожая на эту userID, day, itemID 1, 1, A 1, 1, B 2,...

Tang Dexian / 13 декабря 2018

0 голосов

2 ответов

Как читать вложенный JSON в Spark Scala?

Вот мой вложенный JSON-файл. { "dc_id": "dc-101", "source": {...

Sayan Sahoo / 13 декабря 2018

0 голосов

1 ответ

Таблица данных Delta и Hive Transactional Table

Я видел из двух источников, что сейчас вы не можете каким-либо осмысленным образом...

Vishaal Kalwani / 13 декабря 2018

0 голосов

3 ответов

Как найти общие элементы среди двух столбцов массива?

У меня есть два строковых столбца, разделенных запятыми (sourceAuthors и targetAuthors). val df =...

itgtzortz / 13 декабря 2018

0 голосов

1 ответ

Почему потоковый запрос не записывает данные в HDFS?

Я использую Spark Structured Streaming с Spark 2.3.1 и ниже мой код: val sparkSession =...

RagVaG / 12 декабря 2018

0 голосов

1 ответ

Как читать многострочный JSON с корневым элементом в Spark Scala?

Это пример файла JSON.Я хочу сделать это в целом, например, если у меня есть корневые теги, то как...

Sayan Sahoo / 12 декабря 2018

0 голосов

2 ответов

Spark - Python - Получить год / месяц на RDD

У меня есть СДР с двумя элементами (идентификатор, дата).Со следующей структурой: data=sc

Pedro Alves / 12 декабря 2018

0 голосов

2 ответов

Как я могу реализовать zipWithIndex как Spark в Apache Beam?

Pcollection<String> p1 = {"a","b","c"} PCollection<...

cpchung / 12 декабря 2018

0 голосов

0 ответов

Повторное использование одного и того же сеанса Spark вызывает несколько активных стадий

У нас есть большой набор данных, состоящий из нескольких миллионов записей, а затем обрабатывающий...

Prashant / 12 декабря 2018

0 голосов

1 ответ

Как объединить наборы данных CSV с различными заголовками (имена и количество)?

У меня есть один или несколько CSV-файлов, которые мне нужно объединить в pyspark: файл 1: c1,c2,c3...

user1997656 / 12 декабря 2018

0 голосов

1 ответ

Как обрабатывается СДР, если ни один из исполнителей не меньше разделов в СДР?

Я хотел бы знать ответ на следующий вопрос. Как обрабатывается СДР, если ни один из исполнителей не...

kiran kumar Mudradi / 12 декабря 2018

0 голосов

1 ответ

Как отфильтровать данные по двум датам?

У меня есть сценарий, в котором датафрейм имеет data_date, как показано ниже root |-- data_date:...

Shyam / 12 декабря 2018

0 голосов

0 ответов

Являются ли в Spark синонимы блоков и разделов?

Я знаю, что block - это базовая единица хранения, а partition - базовая единица вычислений в Spark....

chenzhongpu / 12 декабря 2018

0 голосов

0 ответов

Почему код Pyspark вдруг работает медленно

У меня 10 .dat больших файлов.Я использую Pyspark, чтобы преобразовать эти файлы в формат паркета,...

Ramy / 12 декабря 2018

0 голосов

4 ответов

Как создать заголовок DataFrame со столбцом Map [String, Long] и сохранить типы?

У меня есть фрейм данных, к которому я применил filter условие val colNames = customerCountDF

coder_enthusiast / 12 декабря 2018