Вопросы с тегом апаш-искра

0 голосов

1 ответ

Различная сумма между столбцом dataframe и его массивом в искровой скале

Фрейм данных имеет только один столбец «возраст» и содержит 140 миллионов строк. Например, df

gary yong / 02 мая 2018

0 голосов

1 ответ

Ошибка сериализации задачи при использовании UDF

Я использую IntelliJ IDEA для выполнения кода, показанного ниже. Содержание df следующее:...

ScalaBoy / 02 мая 2018

0 голосов

1 ответ

Почему нажатие на предикат не используется в типизированном API набора данных (в отличие от нетипизированного API DataFrame)?

Я всегда думал, что API набора данных / фрейма данных одинаковы ... и единственное отличие состоит...

Pawel Niezgoda / 02 мая 2018

0 голосов

0 ответов

Ошибка Java при использовании PySpark и следующем руководстве

Я следую этому коду: https://github.com/thinline72/nsl-kdd#8

user37649 / 02 мая 2018

0 голосов

1 ответ

Как проанализировать строку CSV в кадре данных Spark, используя Scala?

Я хотел бы преобразовать RDD, содержащий записи строк, как показано ниже, в фрейм данных Spark....

user3096482 / 02 мая 2018

0 голосов

1 ответ

ARRAY_TO_STRING в Spark SQL

Функция PostgreSQL ARRAY_TO_STRING() позволяет запускать SELECT array_to_string(ARRAY[1, 2, 3, NULL...

Jie / 02 мая 2018

0 голосов

1 ответ

Фильтровать строки данных для ключей типа карты

У меня есть DataFrame со столбцом MapType, и я хочу отфильтровать строки, которые не содержат...

Hugo / 02 мая 2018

0 голосов

0 ответов

Генераторы не поддерживаются, когда они вложены в выражения

Я должен сделать простое удаление "." из строк, прежде чем делать подсчет слов. Он работает...

pradipta basu / 02 мая 2018

0 голосов

1 ответ

Как создать ссылку на столбец динамически?

У меня есть DataFrame df со следующей структурой: root |-- author: array (nullable = true) | |--...

ScalaBoy / 01 мая 2018

0 голосов

1 ответ

Функция Spark .count () отличается от содержимого фрейма данных при фильтрации по полю поврежденной записи

У меня есть задание Spark, написанное на Python, которое получает странное поведение при проверке...

Rich Smith / 01 мая 2018

0 голосов

1 ответ

Где указать настройки Spark при запуске приложения Spark в кластере EMR

Когда я запускаю приложение Spark на EMR, в чем разница между добавлением конфигов в файл spark /...

Bilberryfm / 01 мая 2018

0 голосов

0 ответов

Как перенести SortedSet в Seq или Array, чтобы использовать API набора данных Spark с кодировщиками?

Я пытаюсь перенести одно из моих приложений из RDD в набор данных. Бизнес-логика сильно зависит от...

burak kose / 01 мая 2018

0 голосов

1 ответ

Ошибка при запуске потоковой передачи PySpark с использованием kafka

Pyspark новичок. Получение ошибки при выполнении работников pyspark. Сценарий Pyspark: import os os

naren / 01 мая 2018

0 голосов

2 ответов

как использовать искровую задержку и опережение по группам и упорядочить по

я использую: ` dataset.withColumn("lead",lead(dataset.col(start_date),1)

sandev / 01 мая 2018

0 голосов

0 ответов

Проблемы с производительностью при запросе FROM Hbase с использованием Spark TO Elasticsearch

У меня есть огромные почти миллиарды строк в базе данных HBase. Я пишу задание Spark, которое...

Alchemist / 01 мая 2018

0 голосов

1 ответ

Круглый Spark DataFrame на месте

Я читаю файл .csv в Spark DataFrame. Для столбца DoubleType есть ли способ указать во время чтения...

shanlodh / 01 мая 2018

0 голосов

1 ответ

Spark Структурированная потоковая память

Я обрабатываю поток со средней нагрузкой 100 Мбит / с. У меня шесть исполнителей, у каждого из...

carl / 01 мая 2018

0 голосов

0 ответов

Spark RDD - ошибка при отправке итератора

Итак, я просто пытаюсь перебрать Spark RDD и выполнить действие для каждой строки, например так:...

just another profile name / 01 мая 2018

0 голосов

1 ответ

Pyspark: как удалить предмет из коллекции collect_set?

В следующем фрейме данных: from pyspark.sql import functions as F df = sqlContext.createDataFrame([...

Micah Pearce / 30 апреля 2018

0 голосов

0 ответов

Не удалось создать базу данных "metastore_db" с помощью spark-jobserver 0.8.1

Я обновляю свой сервер до версии 2.3.0 и сервера заданий 0.8.1-SNAPSHOT из версии 2.1.1 и сервера...

user1933178 / 30 апреля 2018

0 голосов

1 ответ

SPARK распараллеливание алгоритма - нетипично, как

У меня есть требования к обработке, которые, кажется, не соответствуют хорошим вариантам...

thebluephantom / 30 апреля 2018

0 голосов

1 ответ

Как динамически вызывать функцию withColumn на фрейме данных в Spark Scala

Возможно ли это в spark-scala? Я использую свечи 2.2 val...

Lux / 30 апреля 2018

0 голосов

1 ответ

getOrElse для Option (null) не возвращает тип None или значение по умолчанию, если в Scala значение NULL.

Я пытаюсь инициализировать список в Spark, используя scala, из столбца данных. Значение в некоторых...

iamseiko / 30 апреля 2018

0 голосов

1 ответ

Как использовать разные темы Kafka в каждой партии задания Spark Streaming?

Я почти уверен, что не существует простого способа сделать это, но вот мой вариант использования: У...

manuel mourato / 30 апреля 2018

0 голосов

0 ответов

Создание Dataframe из класса case с вложенным классом case в качестве поля

Я запускаю следующий код: import com.holdenkarau.spark.testing.DatasetSuiteBase import org.apache

pcejrowski / 30 апреля 2018