Вопросы с тегом apache-искра

0 голосов

1 ответ

TypeError: объект DataFrame не вызывается - фрейм данных искры

Я получаю ошибку ниже при выполнении упомянутого оператора соединения.Я использую настройку Pyspark

RK. / 19 марта 2019

0 голосов

1 ответ

Как сгенерировать агрегацию длинных выражений набора данных Spark в цикле?

Я использую Java Spark для статистики набора данных. Мне нужно объединить набор данных по множеству...

BerSerK / 19 марта 2019

3 голосов

1 ответ

Почему select после объединения вызывает исключение в java spark dataframe?

У меня есть два кадра данных: левый и правый.Они одинаковы и состоят из трех столбцов: src relation...

moudi / 19 марта 2019

0 голосов

0 ответов

Структурированный искровой поток - foreach

Я пользуюсь pyspark 2.3.Мне нужно прочитать поток данных и, в конце концов, записать его в Oracle.Я...

Ron F / 18 марта 2019

1 голос

1 ответ

Набор данных Spark - NumberFormatException: нулевая длина BigInteger

Я сталкиваюсь со странным исключением, когда пытаюсь создать набор данных и просто собирать из него...

RLM / 18 марта 2019

1 голос

2 ответов

Как получить Spark ApplicationID, используя Main Class и пользователя

Я использую Hadoop 2.0 с Cloudera и пробую программу на Java, которая проверит, работает ли...

msashish / 18 марта 2019

0 голосов

1 ответ

Поток Kinesis Spark читает записи: работает в автономном кластере

У меня есть приложение Spark Streaming в Java, которое читает записи из потока kineses (1 осколок)...

Anshu Goel / 18 марта 2019

0 голосов

1 ответ

Apache Parquet для хранения данных?

По ссылке sql-data-sources-parquet Ниже приведен фрагмент кода, в котором хранится формат данных,...

user3198603 / 18 марта 2019

0 голосов

0 ответов

PySpark ClassNotFoundException: org.apache.spark.sql.DataFrame

Я следую за примерами на этой странице, чтобы протестировать graphlab-create с PySpark Spark...

ikel / 18 марта 2019

0 голосов

2 ответов

Сравните значение столбца в одной строке с тем же значением столбца в предыдущей строке с тем же DataFrame в Spark

У меня искра DataFrame с разными столбцами. tid | acct | bssn | name |...

Bunny / 18 марта 2019

0 голосов

3 ответов

Читайте данные текстового файла, используя Spark, и разделяйте данные, используя запятую

У меня есть данные в формате ниже. abc, x1, x2, x3 def, x1, x3, x4,x8,x9 ghi, x7, x10, x11 Я хочу...

SHALIN PATEL / 18 марта 2019

0 голосов

0 ответов

randomSplit возвращает фрейм данных со всеми нулевыми значениями в pyspark

Я пытаюсь разделить мои данные на обучающие и тестовые наборы, но они не работают должным образом,...

A-ar / 17 марта 2019

0 голосов

1 ответ

Динамически генерировать Spark Column с помощью операции выборки из БД

У меня есть искровой фрейм данных с 2 столбцами. Я хочу создать 3-й столбец на фрейме данных искры....

Ayan Biswas / 17 марта 2019

0 голосов

1 ответ

Как СДР разделяют Данные для себя?

Я изучаю искру и попал в одно сомнение. Допустим, у меня есть 100 ГБ файла, который нужно...

Lenny / 16 марта 2019

0 голосов

1 ответ

Обработка большого файла с pyspark локально

Я новичок в PySpark и просто использую его для обработки данных. У меня есть файл объемом 120 ГБ,...

Dami Femi / 16 марта 2019

0 голосов

0 ответов

Невозможно создать сериализатор "org.apache.livy.shaded.kryo.kryo.serializers.FieldSerializer"

Это моя демоверсия, это приложение может выполнять официальную работу package org.apache.livy

Pookly / 16 марта 2019

0 голосов

2 ответов

Преобразование JavaPairDStream <String, Integer> в JavaPairDStream <Integer, String>, переключение значений в кортеже (Java Spark)

Я думал, что смогу просто сделать final JavaPairDstream<String, Integer> y = ... ; final...

S.D / 15 марта 2019

0 голосов

1 ответ

PySpark dataframe для просмотра не работает для созданного dataframe

Я пытаюсь создать представление для spark sql, но у меня возникают проблемы при его создании из...

Rocky Li / 15 марта 2019

2 голосов

1 ответ

В чем разница между запуском приложения spark с использованием spark-submit и java -cp?

Дело 1: spark-submit --class main.Test --master local [4] /path/Test.jar SparkSession sparkSession...

Malik Fajar / 15 марта 2019

0 голосов

0 ответов

Обновление JDK на виртуальной машине Cloudera Quickstart

Я просто хотел поговорить и получить разъяснения по поводу проблемы, которую пытаюсь решить. На...

Dylan Edmonds / 15 марта 2019

0 голосов

0 ответов

Pyspark вызывает java.lang.OutOfMemoryError: невозможно создать новый собственный поток при записи в S3

Pyspark, который копирует данные в файл S3, используя приведенный ниже фрагмент кода self.dataframe

Manoj4068 / 15 марта 2019

0 голосов

0 ответов

"Metastore_db" в Derby используется искровым процессом, несмотря на остановку Spark Context

Я пытаюсь удалить «metastore_db» после остановки контекста Spark, но он выдает следующую ошибку:...

sumit kumar / 14 марта 2019

1 голос

1 ответ

Spark / Java: столбец Dataframe String для Struct

У меня есть такой набор данных: +---+-------------------+-----------------------+ |id |time |range...

BadrF / 14 марта 2019

0 голосов

0 ответов

Java-клиент Spark игнорирует extraClassPath в spark-defaults.conf

Когда я использую Java API-клиент в своем приложении и подключаюсь к кластеру Spark, параметр spark

Christian B. / 14 марта 2019

0 голосов

1 ответ

сгенерированный .java файл для Apache искры

Я получаю сообщение об ошибке ниже: ERROR CodeGenerator: failed to compile: org.codehaus.commons

A Learner / 14 марта 2019