Вопросы с тегом апаш-искра

0 голосов

1 ответ

Как использовать Scala Case Class для отображения источника Кафки в Spark Структурированный Поток

Я пытаюсь использовать структурированную потоковую передачу в искре, так как она хорошо подходит...

user1384205 / 02 июля 2018

0 голосов

1 ответ

Замените значения NA на «0», используя Scala оптимизированным способом

У меня есть ввод spark-dataframe с именем df как, +---------------+----+----+----+...

PRIYA M / 02 июля 2018

0 голосов

2 ответов

Какова разница между различными вариантами чтения в искре?

Я читаю CSV-файл с помощью следующего кода: - from pyspark.sql import SparkSession spark =...

user8482601 / 02 июля 2018

0 голосов

1 ответ

Под капотом SPARK оптимизация датафреймов

Оставляя в стороне аспекты соединения с базой данных, которые обсуждаются с mapPartitions для RDD,...

thebluephantom / 01 июля 2018

0 голосов

0 ответов

JSON отправляет как сообщение производителя kafka и использует его при помощи искровой структурированной потоковой передачи -parquet

Я хотел бы знать, как отправить строку JSON в виде сообщения в тему kafka, используя функцию scala...

Shaamil Siraj / 01 июля 2018

0 голосов

0 ответов

спарк собирать статистику по столбцам для конкретного раздела

Как я могу указать спарку собирать статистику по столбцам только для определенного раздела? WARN...

Georg Heiler / 01 июля 2018

0 голосов

2 ответов

SparkSQL: как выбрать значение столбца на основе имени столбца

Я работаю с фреймом данных со следующей схемой: root |-- Id: integer (nullable = true) |--...

Freeman / 01 июля 2018

0 голосов

2 ответов

Соберите строки в виде списка с группой Apache Spark

У меня есть особый вариант использования, когда у меня есть несколько строк для одного и того же...

Prateek Jain / 01 июля 2018

0 голосов

1 ответ

Форматы файлов Hadoop

Мне нужно подумать, как записать мои данные в Hadoop. Я использую Spark, я получил сообщение из...

Ya Ko / 01 июля 2018

0 голосов

1 ответ

Как получить n верхних элементов rdd на значение?

Я создал СДР ключа / значений следующим образом: RDD[(String, Int)]: rdd.map(row => row.split(1)...

Ranit Dholey / 01 июля 2018

0 голосов

1 ответ

как исправить проблему несоответствия типов?

У меня есть работа с потоковым воспроизведением, и у меня возник вопрос о преобразовании типов....

Zhang Xin / 01 июля 2018

0 голосов

1 ответ

Как мне управлять функцией MapWithState?

У меня есть работа с потоковым воспроизведением, коды там внизу: val filterActions = userActions

Zhang Xin / 01 июля 2018

0 голосов

2 ответов

Одно горячее кодирование составного поля

Я хочу преобразовать несколько столбцов с одинаковыми категориальными значениями, используя...

beapen / 01 июля 2018

0 голосов

0 ответов

spark - проблема с пространством кучи Java - ExecutorLostFailure - контейнер вышел со статусом 143

Я читаю строку длиной более 100 Кбайт и разделяю столбцы по ширине. У меня есть столбцы размером...

Katty / 30 июня 2018

0 голосов

3 ответов

lowerByKey в искровом питоне со значениями кортежа

У меня есть СДР (key, (val1,val2)). Для этого rdd я хотел бы применить функцию reduceByKey, и мое...

Sriram / 30 июня 2018

0 голосов

1 ответ

Apache Spark: SparkFiles.get (fileName.txt) - невозможно получить содержимое файла из SparkContext

Я использовал SparkContext.addFile("hdfs://host:54310/spark/fileName.txt") и добавил файл...

Marco99 / 30 июня 2018

0 голосов

0 ответов

Почему мое искровое приложение слишком медленное?

Я использую версию spark-2.0.2-bin-hadoop2.6 в режиме кластера StandAlone, и у меня есть один...

Rajendra Jangir / 30 июня 2018

0 голосов

1 ответ

Hadoop YARN Cluster / Spark и RAM-диски

Поскольку мои вычислительные задачи требуют быстрого дискового ввода-вывода, меня интересует...

Han Altae-Tran / 30 июня 2018

0 голосов

1 ответ

Вызывает ли использование функции в преобразовании не сериализуемые исключения?

У меня есть Breeze DenseMatrix, я нахожу mean на строку и mean квадратов на строку и помещаю их в...

mkey / 30 июня 2018

0 голосов

2 ответов

scala spark преобразует столбец типа структуры в данные json

Я пытался собрать несколько полей в наборе данных и преобразовать их в формат массива json. Я...

Masterbuilder / 29 июня 2018

0 голосов

2 ответов

Строка репликации Pyspark на основе значения столбца

Я хотел бы реплицировать все строки в моем DataFrame на основе значения данного столбца в каждой...

LuizF Gonçalves / 29 июня 2018

0 голосов

1 ответ

java.lang.NoSuchMethodError: com.datastax.driver.core.ResultSet.fetchMoreResults ()

Эта проблема похожа на: Что происходит - NoSuchMethodError: com.datastax.driver.core.ResultSet

shivam gupta / 29 июня 2018

0 голосов

0 ответов

Вложенный SQL-запрос Spark

У меня есть следующий запрос sql spark SELECT count(*), channel FROM channelusage a WHERE a

Niranjan / 29 июня 2018

0 голосов

0 ответов

Два образца Колмогорова Смирнова Тест SCALA Ошибка

Я пытаюсь вычислить де Колмогорова Тест Смирнова в SCALA с распределением [6,6], предполагая, что в...

Jaime Andrés Mendoza / 29 июня 2018

0 голосов

1 ответ

Изменение формы DataFrame в Scala Spark с помощью GroupBy Pivot Agg

У меня есть датафрейм: +---+---+----+ | id|key|name| +---+---+----+ | 10| 1| a| | 11| 1| b| | 12|...

saurin shah / 29 июня 2018