Вопросы с тегом апаша-искра

0 голосов

0 ответов

Как добавить XML-декларацию в XML-файлы, написанные с использованием Spark XML Data-bricks

Я хотел создать файл XML с объявлением XML из CSV / Dataframe, используя Scala в spark. Я использую...

devanathan / 02 июля 2018

0 голосов

2 ответов

Как заменить значения столбца из кадра данных в пустую строку, если она полностью совпадает с регулярным выражением?

Я должен написать очистить при совпадении компонент. Для этого я пытался использовать разные...

adarsh kadameri / 02 июля 2018

0 голосов

0 ответов

чтение файла Excel (*. xlsx) с использованием scala и spark-sql

Я пытаюсь прочитать файл Excel, расположенный в HDFS. Я использую банку Spark Excel,...

OBoy / 02 июля 2018

0 голосов

1 ответ

Spark, как читать из нескольких кластеров Elastic Search

Мне нужно прочитать данные из двух разных кластеров Elastic Search. один для журналов и один для...

Daniel / 02 июля 2018

0 голосов

2 ответов

Как заменить значения столбца данных в пустой строке, которая соответствует входному значению?

Входной фрейм данных val ds = Seq((1,"play Framwork"), (2,"Spark framework"),...

adarsh kadameri / 02 июля 2018

0 голосов

0 ответов

Как распараллелить преобразование сжатого CSV в паркет с помощью Spark?

Я пытаюсь преобразовать большой сжатый CSV-файл в паркет с помощью PySpark. Я довольно новичок в...

Sanjay Kumar / 02 июля 2018

0 голосов

2 ответов

База данных Hive Only Список баз данных по умолчанию

Когда я пытаюсь перечислить все базы данных кустов через Spark (1.6) scala> val tdf = sqlContext

Mahadi Siregar / 02 июля 2018

0 голосов

1 ответ

Spark разделил вложенный JSON на ряды

Я пытаюсь разбить несколько довольно сложных вложенных json на более рационализированный формат, но...

Grizzle / 01 июля 2018

0 голосов

2 ответов

Как сгладить (или взорвать) данные вместе со строкой в кадре данных на основе данных столбца?

Фрейм данных должен взорваться на основе столбца SPC. Ниже приведен пример Мой входной фрейм данных

Siddesh H K / 01 июля 2018

0 голосов

1 ответ

PySpark - SparkContext: Ошибка инициализации файла SparkContext не существует

У меня есть небольшой кусочек кода в PySpark, но я продолжаю получать ошибки. Я новичок в этом,...

TheNinjaKing / 30 июня 2018

0 голосов

1 ответ

Spark DataFrame не разрешает множественный динамический список столбцов с функцией окна в группе по

sample code:- val list=Seq("symbol").map(column=>col(column)) val windowedCount =...

nitinKalyankar / 30 июня 2018

0 голосов

0 ответов

ошибка не найдена тип DataType в искры Scala

Я пытаюсь обернуть определенную функцию Scala в преобразование с использованием конвейера import...

Parv bali / 30 июня 2018

0 голосов

1 ответ

Как присоединиться к двум свечам RDD

У меня есть 2 спарк-RDD, первый содержит отображение между некоторыми индексами и идентификаторами,...

proximator / 30 июня 2018

0 голосов

1 ответ

Spark: данные не помещаются в памяти, и я хочу избежать записи их на диск. Могу ли я выполнять итерации с кусочками данных, чтобы использовать только память?

У меня есть данные, которые не помещаются в памяти. Итак, я читал по следующим ссылкам:...

diens / 29 июня 2018

0 голосов

0 ответов

Как я могу использовать dataframe вместо rdd для нахождения манхэттенского расстояния?

Я уже написал код в Spark RDD вроде: val result = data.map(x => { val eachrecord = x

AkhilaV / 29 июня 2018

0 голосов

0 ответов

Что такое таблицы DELETEME * для datanucleus и когда они СОЗДАНЫ и УДАЛЕНЫ

Я получаю следующее исключение при выполнении искровых заданий. org.datanucleus.exceptions

bytewalker / 29 июня 2018

0 голосов

1 ответ

PySpark конвертирует ByteArray в Double в dataFrame

у меня есть столик с полем ByteArray spark.sql("select ech_montant, ech_piece from f_echeances...

Ftagn / 29 июня 2018

0 голосов

1 ответ

Spark Как указать количество результирующих файлов для DataFrame во время / после записи

Я видел несколько вопросов о записи одного файла в hdf, кажется, достаточно использовать...

altayseyhan / 29 июня 2018

0 голосов

1 ответ

Как удалить дробную часть из столбца данных?

Входной кадр данных: val ds = Seq((1,34.44), (2,76.788), (3,54.822)).toDF("id"...

adarsh kadameri / 29 июня 2018

0 голосов

1 ответ

Настройка spark.local.dir в Pyspark / Jupyter

Я использую Pyspark из записной книжки Jupyter и пытаюсь записать большой набор данных для паркета...

c3p0 / 29 июня 2018

0 голосов

1 ответ

Как сгладить вложенное поле в наборе данных Spark?

У меня есть вложенное поле, как показано ниже. Я хочу вызвать flatmap (я думаю), чтобы получить...

kevl510 / 29 июня 2018

0 голосов

0 ответов

Spark Scala считывает пользовательский формат файла в фрейм данных со схемой

У меня есть входной файл, который очень похож на CSV, но с пользовательским заголовком:...

Miguel A. Friginal / 28 июня 2018

0 голосов

1 ответ

значение кода искры скала внутри карты

Scala> val custdata = sc.textFile("file:///stage/Sales/lego/test/new/spark_test/testing1

Druva Teja / 28 июня 2018

0 голосов

1 ответ

Scala - Как передать строковое значение в фильтр фрейма данных (Spark-Shell)

Я использую Spark 2.2.0 и Scala 2.11.8 в среде Spark-Shell. У меня есть фрейм данных df, и мне...

Allen / 28 июня 2018

0 голосов

1 ответ

Вернуться в список параметров

Я читаю исходный код Spark, и я не уверен, что понимаю эту строку readFunction: (PartitionedFile)...

John Hass / 28 июня 2018