Вопросы с тегом апаш-искра

0 голосов

2 ответов

Оптимизировать фрагмент кода, который использует действие карты

Следующий фрагмент кода занимает много времени на 4 ГБ необработанных данных в кластере: df

Markus / 15 мая 2018

0 голосов

4 ответов

Удалить вершины без исходящих ребер в GraphX

У меня есть большой граф (несколько миллионов вершин и ребер).Я хочу удалить все вершины (и ребра),...

Mann / 15 мая 2018

0 голосов

0 ответов

Странное поведение в CSV-парсере Spark 2, когда включена опция multiLine

При создании DataFrame из файла CSV, если включена опция multiLine, некоторые столбцы файла...

Fernando Lemos / 15 мая 2018

0 голосов

0 ответов

какое количество разделов, когда спарк спл читает таблицу улья?

После прочтения этого ответа я знаю, что количество разделов при чтении данных из Hive будет...

cat / 15 мая 2018

0 голосов

1 ответ

Посмотреть информацию о разделах Spark Dataframe

Можно иметь массив разделов Spark DataFrame следующим образом: > df.rdd.partitions Есть ли...

user152468 / 15 мая 2018

0 голосов

1 ответ

Pyspark - время раунда, представленное как целое число с точностью до четверти часа (15 минут)

Я работаю над датафреймом в Pyspark. Один столбец состоит из целочисленного значения,...

Valentina / 15 мая 2018

0 голосов

2 ответов

Spark & Scala: исключение saveAsTextFile ()

Я новичок в Spark & Scala и получил исключение после вызова saveAsTextFile ().Надеюсь, что кто-то...

Nhan Tran / 15 мая 2018

0 голосов

0 ответов

Разделение искры. Размер раздела

Я пытаюсь понять, как работает разделение в искрах для записей пары NON KEY VALUE.Команды...

Karthi / 15 мая 2018

0 голосов

1 ответ

Матрица подобия с использованием искрового фрейма данных

Для входа Dataframe намерение состоит в том, чтобы генерировать только половину само декартового...

javadba / 15 мая 2018

0 голосов

1 ответ

как эффективно транслировать контент RDD

поэтому у меня есть необходимость транслировать некоторый связанный контент с RDD на все рабочие...

lee / 15 мая 2018

0 голосов

1 ответ

Портирование частично-реляционных данных S3 в Redshift через Spark и Glue

Я должен предварять это тем фактом, что я использую Enhanced VPC Routing для своей учетной записи...

hotmeatballsoup / 15 мая 2018

0 голосов

1 ответ

Как MasterNode вписывается в кластер Spark?

Я немного запутался в том, как настроить конфигурацию Spark для рабочих нагрузок, используя YARN в...

simplycoding / 15 мая 2018

0 голосов

1 ответ

Spark: разделение пробела / разбора плюс строки в кавычках

У меня есть записи, подобные приведенным ниже. Разделенные пробелами / разделенные: 2015-07-22 5555...

1pluszara / 14 мая 2018

0 голосов

2 ответов

Чтение сообщения от Кафки и запись в HDFS

Я ищу лучший способ читать сообщения (много сообщений, около 100B каждый день) из Кафки, после...

CSharpBeginner / 14 мая 2018

0 голосов

0 ответов

Как читать таблицу улья с вкладышем в Spark 2.x

Здравствуйте, как мы можем прочитать эту таблицу улья с переплетом в Spark 2.x.Даже в примере с...

Hemant / 14 мая 2018

0 голосов

1 ответ

Подсчет нескольких счетчиков в одном выражении

У меня есть следующий код, написанный на Spark с использованием Scala и SQL API: sourceData

datahack / 14 мая 2018

0 голосов

1 ответ

как денормализовать JSON в искре

скажем, например, это JSON, как показано ниже. Я на самом деле взял это с сайта Amazon, но я думаю,...

oortcloud_domicile / 14 мая 2018

0 голосов

1 ответ

Как предотвратить предикат pushdown?

Недавно я работал с Spark с источником данных JDBC.Рассмотрим следующий фрагмент: val df = spark

T. Gawęda / 14 мая 2018

0 голосов

0 ответов

Что-нибудь в Spark SQL похоже на CONDITIONAL_CHANGE_EVENT?

Vertica имеет аналитическую функцию CONDITIONAL_CHANGE_EVENT, которая выполняет что-то вроде...

Manjesh / 14 мая 2018

0 голосов

1 ответ

Флаг пакетов Spark против jars dir?

В Spark, в чем разница между добавлением JAR-файлов в путь к классам через аргумент --packages и...

hotmeatballsoup / 14 мая 2018

0 голосов

1 ответ

Как улучшить этот Spark трубопровод?

Предположим, я присоединяюсь к нескольким Spark фреймам данных: abcd = a.join(b, 'bid',...

Michael / 14 мая 2018

0 голосов

1 ответ

Сглаживание рекурсивных вложенных данных в Spark SQL

У меня есть данные JSON, которые содержат несколько вложений, как показано ниже. Глубина вложения...

user400058 / 14 мая 2018

0 голосов

0 ответов

Не удается удалить строки во фрейме данных Spark R

Контекст Я работаю над sparkR с CSV-файлами.до работы с spark я работал над R с файлами Excel, и я...

Meziani Amina / 14 мая 2018

0 голосов

1 ответ

Операция сохранения как таблицы завершается неудачно, когда элемент типа структуры имеет поля со специальным символом для SPARK

У меня ниже XML, который я пытаюсь прочитать через SPARK XML: <revolt>...

abhijeet bedagkar / 14 мая 2018

0 голосов

0 ответов

Как использовать GraphX с Spark Streaming?

У меня есть приложение Spark Structured Streaming, которое получает сообщения Kafka.Для каждого...

Igorock / 14 мая 2018