Вопросы с тегом апаш-искра

0 голосов

1 ответ

Обработка высокоразмерного кадра данных в spark / pyspark (2.2 *, 2.3.0)

Вопрос 1. Я работаю над задачей классификации с фреймом данных размером 56 000 записей и 2100...

godspeed / 24 сентября 2018

0 голосов

0 ответов

Проблемы с Сериализацией Искры?

Позвольте быть работой, которая содержит две фазы, которые (для удобства) не могут быть объединены

belka / 24 сентября 2018

0 голосов

1 ответ

Интегрирование искры и весеннего ботинка

После борьбы с зависимостями регистратора я наконец успешно запустил приложение весенней загрузки с...

Stefania / 24 сентября 2018

0 голосов

1 ответ

PySpark - добавление столбца для подсчета (*)

У меня есть скрипт ниже (я удалил все имена столбцов и т. Д., Чтобы было проще увидеть, что я делаю...

kikee1222 / 24 сентября 2018

0 голосов

1 ответ

Как сохранить объект Scala на столе Кассандра с помощью искры

У меня есть класс модели Scala, объект которого я хочу сохранить в таблице Cassandra. Существует...

shantha ramadurga / 24 сентября 2018

0 голосов

0 ответов

Агрегация пряжи журналом потоковой работы искры

По умолчанию YARN агрегирует журналы после завершения приложения.Но я пытаюсь объединить журналы...

Ayush Chauhan / 24 сентября 2018

0 голосов

2 ответов

Как сохранить вывод функции scala в файл csv?

Я использую Scala для запуска этого проекта , код выглядит следующим образом: package com

Aaditya Ura / 24 сентября 2018

0 голосов

1 ответ

искровое скала декартово произведение каждого элемента в колонне

У меня есть датафрейм, который выглядит следующим образом: df: col1 col2 a [p1,p2,p3] b [p1,p4]...

user1337 / 24 сентября 2018

0 голосов

1 ответ

агрегирование с условием в групповом кадре искры

У меня есть датафрейм id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13...

experiment / 24 сентября 2018

0 голосов

1 ответ

искровая агрегация для столбца массива

У меня есть фрейм данных со столбцом массива. val json = """[ {"id": 1,...

Oleg Pavliv / 24 сентября 2018

0 голосов

2 ответов

Ошибка преобразования искры Scala при создании фрейма данных

Я новичок в скале.Пожалуйста, наберитесь терпения. У меня есть этот код. import org.apache.spark

kaileena / 24 сентября 2018

0 голосов

1 ответ

к чему конкретно относится spark.sql.shuffle.partitions?

Быстрый вопрос, просто пытаясь понять, что именно означает spark.sql.shuffle.partitions?Говорим ли...

MaatDeamon / 24 сентября 2018

0 голосов

0 ответов

не удалось запустить искровой докер с помощью супервизора

Это док-файл искры с centos7.Я искал команду выполнения, которая используется в супервизоре, чтобы...

VAIBHAV SHUKLA / 24 сентября 2018

0 голосов

0 ответов

Путаница с интеграцией Spark SQL и нескольких версий Hive

Я использую Spark 2.3, и меня смущает интеграция Spark SQL и Hive. Spark SQL поддерживает множество...

Tom / 24 сентября 2018

0 голосов

2 ответов

Создайте фрейм данных, комбинируя фреймы данных заголовка и данных

У меня есть 2 кадра данных: |data | |--------------| |[1,Rob,12] | |[2,Jeremy,11] | |[3,Bart,14] |...

partsBar / 24 сентября 2018

0 голосов

3 ответов

Spark collect_list и ограничить результирующий список

У меня есть фрейм данных следующего формата: name merged key1 (internalKey1, value1) key1...

pirox22 / 23 сентября 2018

0 голосов

0 ответов

Как получить JobGroupId

RDD.sparkContext имеет setJobGroup: myRdd.sparkContext.setJobGroup("standardizationPipeline

javadba / 23 сентября 2018

0 голосов

1 ответ

PySpark - каталог, напечатанный в виде столбца в DF

В HDFS у меня есть такие каталоги, как этот hdfs: // имя хоста / данные / канал / данные / dt =...

kikee1222 / 23 сентября 2018

0 голосов

0 ответов

Преобразование набора данных транзакций для правил ассоциации искры scala

У меня есть набор данных транзакции, который я готовлю к val df = spark.read.parquet(".

Alexander Mazitov / 23 сентября 2018

0 голосов

1 ответ

Ищете альтернативное решение ARRAY_CONTAINS для Spark SQL

Я использую вложенную структуру данных (массив) для хранения многозначных атрибутов для таблицы...

Abir Chokraborty / 23 сентября 2018

0 голосов

1 ответ

Spark SQL - заменить пустые значения значениями по умолчанию

У меня есть следующая схема данных: root |-- firstname: string (nullable = true) |-- lastname:...

MateuszDlugosz / 22 сентября 2018

0 голосов

2 ответов

Фильтровать текст столбца, начинающийся с> в DataFrame Spark Scala

Мне нужно отфильтровать только текст, начинающийся с> в столбце. Я знаю, что есть функции setsWith...

Hussain Asghar / 22 сентября 2018

0 голосов

1 ответ

Как разделить столбец dataframe, который содержит строки

Я использую spark 2.2 и пытаюсь прочитать набор данных из файла tsv, как показано ниже в pyspark:...

Kamal Nandan / 22 сентября 2018

0 голосов

0 ответов

Прочитать список больших двоичных объектов, где URL-адреса находятся во фрейме данных

У меня есть список больших двоичных объектов (wasbs url) в структурированном фрейме потоковых...

user2119453 / 22 сентября 2018

0 голосов

0 ответов

pyspark максимальный размер явной трансляции

Каков максимальный размер spark.broadcast (var), где var - это пустой массив?Я видел это...

momo / 22 сентября 2018