Вопросы с тегом apache-искра

0 голосов

1 ответ

Удалить пустые строки из кортежа RDD

У меня есть СДР в форме (name,[token1, token2, ...]) с ключом name и значениями token.Например:...

Notna / 20 февраля 2019

0 голосов

1 ответ

десятичное значение отображается в научной нотации - HBase (Феникс)

возможно ли отображать действительное десятичное значение, а не отображать в научной записи в HBase...

user6835509 / 20 февраля 2019

0 голосов

1 ответ

Java Spark Api GroupBy + заполнить пустые поля

Добрый день, коллеги, я не могу решить проблему с преобразованием. Пример набора данных:...

Александр Шаповалов / 20 февраля 2019

0 голосов

0 ответов

Искровые и неденормализованные таблицы

Я знаю, что Spark намного лучше работает с денормализованными таблицами, где все необходимые данные...

RLM / 20 февраля 2019

0 голосов

1 ответ

Проблема применения косинусного сходства UDF к сгруппированным векторам ML в Pyspark

У меня ошибка при применении UDF (dot_group) к сгруппированным данным.Эта UDF имеет целью...

Nacho / 20 февраля 2019

0 голосов

2 ответов

Неявная схема для pandas_udf в PySpark?

Этот ответ хорошо объясняет, как использовать groupby и pandas_udf для pyspark для создания...

Thomas / 19 февраля 2019

0 голосов

1 ответ

Расчет статистики ANOVA в Spark 2 с Java 8

У меня есть фрагмент кода в Java 8 для вычисления статистики Annova с использованием Spark SQL API,...

F. Aydemir / 19 февраля 2019

0 голосов

0 ответов

хотите получить теги / атрибуты и их значения из XML в hadoop

У меня есть большой XML-файл, и я хочу извлечь атрибуты / теги и их значения из XML-файла и...

sachinkshd / 19 февраля 2019

0 голосов

1 ответ

Spark: разделение с помощью разделителя не работает с запятыми

Я работаю над Spark SQL с Spark (2.2) и использую Java API для загрузки данных из файла CSV. В...

Svg_af / 19 февраля 2019

0 голосов

1 ответ

Java-Spark: как получить значение столбца Dataset <Row>при итерации в цикле и использовать его в when (). В противном случае ()?

У меня есть Dataset<Row> со столбцами, имеющими значения "null" (пустой текст). Я...

aiman / 19 февраля 2019

0 голосов

0 ответов

Как избежать "org.apache.http.NoHttpResponseException" при записи в s3

Работа в spark (2.11) над s3 (java, spark standalone) Я получаю org.apache.http

Nizan Grauer / 19 февраля 2019

0 голосов

1 ответ

[Структурированная потоковая передача]: запись потоковых данных в Postgres.

У меня есть потоковый фрейм данных, который я пытаюсь записать в базу данных.Есть документация для...

Ram / 19 февраля 2019

0 голосов

1 ответ

Spark-Shell: org.apache.spark.SparkException: задача не сериализуема

Я пытаюсь добавить данные Чикаго Преступления, которые находятся в HDFS...

erdemjohn / 19 февраля 2019

0 голосов

2 ответов

Spark: сложная работа с датафреймами

У меня есть входной набор данных в следующем формате: +---+--------+----------+ | id| refId|...

Himanshu Yadav / 18 февраля 2019

0 голосов

0 ответов

Есть ли способ изменить уровень журнала задания спарка во время выполнения?

Использование структурированной потоковой передачи Spark 2.1.1 - это способ изменить уровень...

Rishi / 18 февраля 2019

0 голосов

3 ответов

Объединение наборов данных и переименование одного столбца

Я знаю, как это сделать, но я полагаю (или, по крайней мере, надеюсь), что есть более простой и...

RLM / 17 февраля 2019

0 голосов

0 ответов

Модификация не rdd объекта с помощью функций pyspark

Я пытаюсь найти связанные компоненты в графе через Pyspark.Во-первых, я определил свой собственный...

Miguel Jiahao Wang / 17 февраля 2019

0 голосов

1 ответ

java.io.IOException: Не удалось прочитать нижний колонтитул для файла FileStatus при попытке прочитать файл паркета из кластера Spark из IBM Cloud Object Storage

Я создал кластер Spark с 3 работниками в Kubernetes и развертывание JupyterHub для подключения к...

Bruno Faria / 17 февраля 2019

0 голосов

1 ответ

Невозможно записать регистр в Spark SQL

Я написал ниже запрос в Spark SQL, используя spark-shell, и я получаю сообщение об ошибке ниже...

Ravi / 17 февраля 2019

0 голосов

1 ответ

Как установить profiler_cls при использовании SparkSession.builder?

У меня есть кодовая база python, которая использует pyspark SparkSession.builder для создания...

user481a / 17 февраля 2019

0 голосов

1 ответ

Напишите файл CSV в quoteMode NON_NUMERIC, чтобы только строки и нечисловые ячейки были окружены кавычками

У меня есть CSV для записи с такой схемой: StructType s = schema.add("codeCommuneCR",...

Marc / 17 февраля 2019

0 голосов

0 ответов

PySpark странное поведение to_timestamp ()

Я заметил немного странное поведение в функции PySpark (и, возможно, Spark) to_timestamp.Похоже,...

Asif Iqbal / 16 февраля 2019

0 голосов

1 ответ

Добавьте значения tuple2 в JavaPairDStream

У меня есть JavaPairDStream<String, Tuple2<Double, Double>> со значениями, (ADBE,(1.1,1

dominicrd / 16 февраля 2019

0 голосов

1 ответ

Получение ошибки при использовании combbykey в JavaDStream

Я получаю ниже ошибка при запуске программы.Я пытаюсь найти среднее значение Dstream в формате...

dominicrd / 16 февраля 2019

0 голосов

1 ответ

Как заставить генератор работать в spark mapPartitions ()?

Я пытаюсь использовать mapPartiton в spark для обработки большого текстового корпуса: допустим, у...

user8734221 / 16 февраля 2019