Вопросы с тегом апаш-искра

0 голосов

0 ответов

Разбор Dataframe в Scala

Я пытаюсь разбить изображения ниже на столбцы. Если разделить, то Dataframe всегда меняется на...

Sandeep540 / 17 октября 2019

0 голосов

1 ответ

Spark - jdbc читать все происходит на драйвере?

У меня есть искровое чтение из источника Jdbc (оракул). Я указываю нижний, верхний, числовой раздел...

toop / 16 октября 2019

2 голосов

1 ответ

Фильтрация искры scala для дат по датам, превышающим текущее время

У меня в фрейме 1.6 есть фрейм данных, в котором я хотел бы выбрать все строки больше текущего...

Defcon / 16 октября 2019

0 голосов

2 ответов

Как избежать OutOfMemoryError в маленьком ArrayBuffer в рамках небольшой функции?

Функция scanFolder() работала, но иногда выдается исключение ниже object MyClass{ // ... etc val fs...

Peter Krauss / 16 октября 2019

0 голосов

1 ответ

Статистика apache-spark-Cost Based Optimizer (CBO) не используется при оценке планов запросов в Spark Sql

Мы пытаемся использовать CBO для получения лучших результатов плана для нескольких критически...

Srini / 16 октября 2019

1 голос

1 ответ

Создание распределенного СДР в Spark

Мне известно, что для создания RDD у нас есть 2 способа: Распараллелить существующую коллекцию в...

I. A / 16 октября 2019

0 голосов

0 ответов

Написать Avro файлы, совместимые с Redshift

Я использую Spark 2.4.4, import os os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages...

Paul Bendevis / 16 октября 2019

0 голосов

1 ответ

Таблица apache-spark-Cache в памяти перетекает на диск

Как закрепить таблицу в кеше, чтобы она не выгружалась из памяти? Ситуация: Мы используем...

Srini / 16 октября 2019

0 голосов

1 ответ

Как можно спарк написать (создать) таблицу в улье как внешнюю в HDP 3.1

Значение по умолчанию spark-shell --conf spark.hadoop.metastore.catalog.default=hive val...

Georg Heiler / 16 октября 2019

0 голосов

1 ответ

Spark + s3 - ошибка - java.lang.ClassNotFoundException: класс org.apache.hadoop.fs.s3a.S3AFileSystem не найден

У меня есть кластер spark ec2, куда я отправляю программу pyspark из записной книжки Zeppelin. Я...

user1264933 / 16 октября 2019

0 голосов

1 ответ

Как преобразовать в кортежи и повысить производительность запросов SQL из 1 строки?

Как это сделать? val (a,b) = spark.sql("SELECT 1,2").first Примечания и мотивы Мне нужно...

Peter Krauss / 16 октября 2019

0 голосов

1 ответ

Spark: как отфильтровать данные по условию подмножества

У меня есть две таблицы, отображение p_to_v, отображение g_to_v. scala> val p_to_v =...

user811602 / 16 октября 2019

0 голосов

1 ответ

Tensorflow Java использует слишком много памяти с искрой на YARN

При использовании java tenorflow для вывода объем памяти для выполнения задания на YARN слишком...

scauglog / 16 октября 2019

0 голосов

0 ответов

PySpark RDD, отображающий несколько строк вместе

Как заставить RDD MAP выполнять итерацию по каждой строке, а не итерацию по двум строкам в данный...

SecretAgent / 16 октября 2019

0 голосов

1 ответ

динамическое сокращение раздела не ясно

Я пытаюсь понять новую функцию в spark 3: динамическое сокращение раздела. Глядя на этот тест:...

user1361815 / 16 октября 2019

0 голосов

2 ответов

Scala: преобразование столбца dict для данных в таблицу

У меня есть датафрейм rating в формате ниже: id | percentile...

toofrellik / 16 октября 2019

0 голосов

1 ответ

Алгоритм поиска круга

Я пытаюсь создать алгоритм, который способен находить круги на графике, используя graphx и scala. Я...

ZsoltF / 16 октября 2019

1 голос

1 ответ

Поверните датафрейм в фиксированное число столбцов spark sql

У меня есть фрейм данных val df = spark.sqlContext.createDataFrame(Seq( ("100"...

Rao / 16 октября 2019

0 голосов

2 ответов

Как получить набор данных, который содержит только дату, которая представляет первое число каждого месяца

У меня есть такой набор данных: +----------+ | dt| +----------+ |2019-08-08| |2019-08-22|...

Olivier GSCHWIND / 16 октября 2019

0 голосов

1 ответ

Найти максимальное значение из разных столбцов в одной строке в Scala DataFrame

Я попытался определить максимальное значение из разных столбцов в одной строке в фрейме данных...

Antony / 16 октября 2019

3 голосов

1 ответ

Есть ли объяснение, когда spark-csv не сохраняет DataFrame в файл?

dataFrame.coalesce(1).write().save("path") иногда записывает только файлы _SUCCESS и

BanyRule / 16 октября 2019

1 голос

3 ответов

Как написать таблицу для улья от искры без использования соединителя хранилища в HDP 3.1

при попытке использовать spark 2.3 на HDP 3.1 для записи в таблицу Hive без соединителя хранилища...

Georg Heiler / 16 октября 2019

1 голос

1 ответ

Как создать пустой фрейм данных, используя внешнюю таблицу улья?

Я использую приведенное ниже, чтобы создать фрейм данных (spark scala) с использованием внешней...

Santhosh Chakka / 15 октября 2019

1 голос

0 ответов

Поменять новый разделитель строк в spark 2.1

Я работаю с набором данных, для которого новый разделитель строк установлен как ^M , и, поскольку...

Freeman / 15 октября 2019

0 голосов

1 ответ

Как программно сгенерировать тип структуры как StringType для всех полей в искре?

У меня есть * n количество полей (например, 200-300), все поля Тип структуры я хочу только как...

Paun Raj / 15 октября 2019