Вопросы с тегом апаш-искра

0 голосов

1 ответ

Удалить столбцы из Dataframe, которые имеют одно значение (более эффективное)

Допустим, у меня есть следующий фрейм данных: /* +---------+--------+----------+--------+ |a |b | c...

RudyVerboven / 16 мая 2018

0 голосов

1 ответ

Как Apache Spark структурированный поток 2.3.0 позволяет приемнику знать, что новая строка является обновлением существующей строки?

Как Spark структурированная потоковая передача сообщает приемнику, что новая строка является...

user1870400 / 16 мая 2018

0 голосов

1 ответ

Как изменить размер двух массивов / наборов данных, чтобы они были одинаковыми в Spark Scala?

У меня есть два массива / набор данных. scala> data1.collect res2: Array[Array[Double]] =...

pooja / 16 мая 2018

0 голосов

0 ответов

Как избежать случайного числа при написании Dataframe для заданного пути в pyspark?

У меня есть DataFrame pyspark, выполнив приведенный ниже код. Я сохраняю Dataframe в заданном пути....

Sai / 16 мая 2018

0 голосов

2 ответов

Я не могу увидеть файл .csv, который я сохранил с помощью Spark & Scala

Я пытаюсь сохранить в файл .csv результат запроса, выполненного с использованием SQL и Parquet, из...

jeremybcenteno / 16 мая 2018

0 голосов

2 ответов

Spark Streaming Kafka CreateDirectStream не разрешается

Нужна помощь, пожалуйста. Я использую IntelliJ с SBT для сборки своих приложений. Я работаю над...

Eddy Big Data / 16 мая 2018

0 голосов

1 ответ

Как читать десятичные данные 38 точности и 18 масштаба в Scala

У меня есть данные типа Decimal (38,16) в РСУБД.Я импортирую эти данные в HDFS (Hadoop) в формате...

Vijay_Shinde / 16 мая 2018

0 голосов

0 ответов

Spark: Является ли оконная функция альтернативой пользовательским разделителям?

Я немного сбит с толку тем, как настраиваемые разделители (RDD) действительно применяются в...

1pluszara / 16 мая 2018

0 голосов

1 ответ

Как использовать combiner в агрегатных сообщениях в GraphX

В GraphX AggregateMessages API class Graph[VD, ED] { def aggregateMessages[Msg: ClassTag](...

Litchy / 16 мая 2018

0 голосов

1 ответ

Spark: YARN генерирует ошибку NoSuchMethodError для NettyMemoryMetrics

Чтобы заставить Spark (spark-2.3.0-bin-without-hadoop) работать с YARN на HDFS, я понизил Hadoop до...

Windsaw / 16 мая 2018

0 голосов

0 ответов

Буфер UserDefinedAggregateFunction merge () всегда не заполнен

Я пытаюсь создать свою собственную функцию scala UserDefinedAggregateFunction для простой программы...

user1792160 / 15 мая 2018

0 голосов

1 ответ

Сохранение фреймов данных с очень большими значениями в Spark

Используя фрейм данных Spark, я выполняю операцию groupBy, чтобы собрать все значения, связанные с...

DED / 15 мая 2018

0 голосов

1 ответ

Кодеры набора данных Spark: kryo () против bean ()

При работе с наборами данных в Spark нам необходимо указать кодировщики для сериализации и...

Abhay Dubey / 15 мая 2018

0 голосов

1 ответ

Получение максимальных минут для каждой категории столбца в кадре данных с использованием scala

У меня есть датафрейм с 5 столбцами.Теперь мне нужно получить максимум минут для каждой категории...

Babu / 15 мая 2018

0 голосов

1 ответ

Провайдер org.apache.hadoop.fs.s3a.S3AFileSystem не может быть создан

Я пытаюсь сохранить модель обучения в S3 из моего автономного кластера Spark.Но у меня есть эта...

Farah / 15 мая 2018

0 голосов

2 ответов

Преобразовать набор данных с пустыми данными для дат

У меня есть набор данных с датой, учетной записью и значением. Я хочу преобразовать набор данных в...

Masterbuilder / 15 мая 2018

0 голосов

0 ответов

spark sql: превышен лимит накладных расходов GC при чтении паркетных файлов

Я пытаюсь прочитать существующие файлы паркета из hdfs, используя spark sql для моего POC, но при...

Farooq Mohammed / 15 мая 2018

0 голосов

0 ответов

Ошибка установки Apache Spark.

Я могу установить Apache spark с заданным набором команд на ubuntu 16 : dpkg -i scala-2.12.1.deb...

jax / 15 мая 2018

0 голосов

0 ответов

Настройка производительности для функции JavaRDD

Я хочу преобразовать фрейм данных в массив Json, используя Java и Spark версии 1.6, для которых я...

Irthiza Khan / 15 мая 2018

0 голосов

2 ответов

Кэшированный кадр данных сбрасывается после усечения таблицы

Вот шаги: scala> val df = sql("select * from table") df: org.apache.spark.sql

Tomasz Krol / 15 мая 2018

0 голосов

1 ответ

Подключитесь к Mongo Docker от Spark, используя SSL

В целях тестирования я хочу подключиться к экземпляру MongoDB docker к Spark с помощью разъема...

Tom Lous / 15 мая 2018

0 голосов

1 ответ

Как найти разницу времени между 2 датами в Скале?

У меня есть фрейм данных +-----+----+----------+------------+----------+------------+ |empId| lId|...

Vinju / 15 мая 2018

0 голосов

1 ответ

Как прочитать данные за последние 3 дня из папки с паркетными файлами?

У меня есть папка с множеством паркетных файлов, имена которых следующие:...

Markus / 15 мая 2018

0 голосов

1 ответ

Разделение данных столбца по разделителю

У меня есть фрейм данных Spark (1.4), где данные в столбце похожи на "1-2-3-4-5-6-7-8-9-10-11-12".Я...

Rajdip / 15 мая 2018

0 голосов

0 ответов

Преобразовать CSV (KeyValueTextInputFormat) в Avro (AvroKeyOutputFormat), используя Spark saveAsNewAPIHadoopFile

Я пытаюсь преобразовать CSV в AVRO, используя API Spark, как показано ниже: 1) читать файлы CSV,...

RaviNK259 / 15 мая 2018