Вопросы с тегом апаша-искра

0 голосов

1 ответ

Spark SparkOutOfMemoryError, несмотря на то, что память каждой задачи больше, чем ввод

Я использую 10 r4.8xlarge с 32 кодами и 244 ГБ памяти и 100 ГБ SSD, мой ввод составляет 100 22 ГБ...

user10714010 / 29 сентября 2019

1 голос

0 ответов

Проблема доступа Spark-Vertica (подключение, печать схемы, подсчет, но не удалось получить записи)

Я могу подключиться к Vertica через EMR (Spark), подсчитать и распечатать схему, но не могу...

g1_ / 29 сентября 2019

0 голосов

1 ответ

Как передать набор входных файлов (не каталогов) для запуска работы и создать фрейм данных поверх этих файлов

Я хотел бы передать набор файлов avro в качестве входных данных в работу Spark и создать фрейм...

Ameer basha Pathan / 28 сентября 2019

0 голосов

0 ответов

Несколько искровых заданий scala, записывающих в один и тот же путь одновременно

У меня более двух заданий scala, которые выполняются одновременно и пишут в одно и то же место. Я...

user8617180 / 28 сентября 2019

0 голосов

1 ответ

Поиск строки слова или целого числа в каталоге с использованием scala

Нужно искать слово или число в папке, которая содержит 100 CSV-файлов, используя scala и spark

Ayush / 28 сентября 2019

0 голосов

1 ответ

.rowsBetween (Window.unboundedPreceding, Window.unboundedFollowing) Ошибка Spark Scala

Здравствуйте. Я пытаюсь расширить последнее значение каждого окна до остальной части окна для...

Javier de la Iglesia / 28 сентября 2019

0 голосов

2 ответов

Почему комбинатор никогда не вызывается в искре aggregateByKey?

Я пытаюсь понять, как aggregateByKey работает в искре В приведенном ниже примере преобразовывается...

user10714010 / 28 сентября 2019

0 голосов

0 ответов

Ошибка установки Apache-Airflow на ОС Windows

Я использую pyspark spark 2.4.4 и Pycharm Python: 2.7 Пожалуйста, помогите мне, как мне настроить...

Sophie Dinka / 28 сентября 2019

0 голосов

1 ответ

Точность и масштаб искры при неверном отображении кажутся неправильными

При чтении документации Spark DataType BigDecimal (точность, масштаб) означает, что Точность - это...

ibaralf / 28 сентября 2019

0 голосов

1 ответ

Ошибка при передаче 10 тыс. Записей в граф Януса с Кассандрой

Я извлекаю около 10 миллионов записей из оракуловой базы данных и пытаюсь сохранить их на графике...

Sruthi / 27 сентября 2019

2 голосов

0 ответов

В spark 2.x, кроме использования DF.write.mode (). Jdbc () ....., как записать данные Dataframe в mysql

Я хочу продолжать обновлять таблицу mysql с некоторыми агрегированными результатами, которые я...

mohit_d / 27 сентября 2019

1 голос

2 ответов

Как изменить имя приложения Spark после его запуска?

У меня проблемы с обновлением / переконфигурированием предопределенного контекста Spark,...

Elliot Huebler / 27 сентября 2019

0 голосов

0 ответов

режим расчета функции агг в искровых скалах

Я пытался следовать UDAF без scala z для расчета режима столбца, но он возвращает Null:...

Saad Zia / 27 сентября 2019

0 голосов

3 ответов

подсчет искр при условии

Я пытаюсь сгруппировать фрейм данных, затем при агрегировании строк с количеством я хочу применить...

aName / 27 сентября 2019

1 голос

1 ответ

Извлечение элементов из XML и присвоение переменной

Из этого данного XML я хотел бы извлечь значения для тега и назначить их переменной.Я использую...

earl / 27 сентября 2019

0 голосов

1 ответ

Spark: java.lang.NoClassDefFoundError: scala / collection / mutable / ArraySeq $ ofRef

Я пытаюсь запустить простую программу подсчета слов с spark-submit и получаю исключение. Исключение...

user1575148 / 27 сентября 2019

0 голосов

0 ответов

Запуск нескольких SparkContexts в одной JVM или создание нескольких JVM в целочисленной среде.

Я хочу создать локальную искровую среду в Intellij для разработки / тестирования приложения Spark,...

user2037661 / 27 сентября 2019

0 голосов

2 ответов

Как переименовать дубликат столбца, используя индекс столбца?

У меня есть фрейм данных, который имеет два столбца с одинаковыми именами, так как первый столбец...

Yonas Haile / 27 сентября 2019

1 голос

1 ответ

Ошибка разрешения при использовании sparklyr с Hadoop

Я пытаюсь заставить sparklyr работать на кластере с Hadoop.Когда я запускаю sc <-...

Merik / 27 сентября 2019

0 голосов

0 ответов

Pyspark - Как взорвать JSON неравной длины в столбцах

Например, у меня есть фрейм данных с разной длиной не вложенного json: и для каждого json у меня...

Mark Krystal / 27 сентября 2019

0 голосов

0 ответов

Как создать RowFilter с использованием JavaRDD для выборки строк с соответствующими ключами строк из HBASE

Я использую newAPIHadoopRDD для чтения всех данных из HBase.Это неэффективно, так как я читаю все...

Ani / 27 сентября 2019

1 голос

2 ответов

Фильтрация данных с использованием списка кортежей в spark scala

Я пытаюсь отфильтровать фрейм данных в scala, сравнив два его столбца (в данном случае тему и...

C K / 26 сентября 2019

0 голосов

1 ответ

Как передать переменные в путь spark.read.csv с помощью PySpark

Я использую PySpark для чтения каждый день CSV-файла, который называется что-то вроде AA_...

WorkBench / 26 сентября 2019

0 голосов

0 ответов

Как прочитать CSV-файл и загрузить в BigQUERY с помощью искры

Я новичок в Spark и пытаюсь загрузить CSV-файл в BigQuery с помощью spark при настройке ошибки...

Ram G / 26 сентября 2019

0 голосов

2 ответов

Спарк DataFrame порядок, используя много столбцов в Scala

В Spark 1.6, в основном, я хотел бы применить разделение, а затем упорядочить, используя два...

Surender Raja / 26 сентября 2019