Вопросы с тегом апаша-искра

0 голосов

1 ответ

Как перераспределить фрейм данных на основе более чем одного столбца?

У меня есть фрейм данных: yearDF со следующими столбцами: name, id_number, location,...

Metadata / 24 сентября 2018

0 голосов

1 ответ

Отправить искровое задание из Airflow во внешний искровой контейнер

У меня есть кластер искр и воздушных потоков, который построен с помощью док-роя.Контейнер...

ugur / 24 сентября 2018

0 голосов

0 ответов

установка SparkR в клоудере 5.14

Я пытаюсь установить пакет SparkR в R в версии Cloudera 5.14.Я установил JAVA_HOME и SPARK_HOME...

Akash Bhattacharyya / 24 сентября 2018

0 голосов

0 ответов

Получаете java.lang.NoSuchMethodError при запуске программы spark на языке scala?

Я запускаю программу spark в scala и получаю ошибку ниже времени выполнения: Exception in thread...

Kumar Harsh / 24 сентября 2018

0 голосов

1 ответ

Получение ошибки при определении схемы для CSV-файла в спарк с использованием Scala

Я пытаюсь определить схему для файла CSV, используя case class в Scala. case class userSchema(name...

Kumar Harsh / 24 сентября 2018

0 голосов

1 ответ

Доступные опции в spark.read.option ()

Когда я читаю код Python других людей, например, spark.read.option("mergeSchema",...

Tim.X / 24 сентября 2018

0 голосов

1 ответ

выбрать конкретные столбцы после объединения двух информационных кадров в спарк

Я присоединился к двум фреймам данных и сейчас пытаюсь получить отчет, состоящий из столбцов из...

Ravi / 24 сентября 2018

0 голосов

1 ответ

как спарк загружать файлы из HDFS и как это связано с RDD

Как зажигать данные из HDFS в кластере? Как блоки преобразуются в RDD? Допустим, у меня есть...

kmb s / 23 сентября 2018

0 голосов

1 ответ

CqlInputFormat Кассандры не удалось встроить в Scala, но он работал на Java

Мой скалярный код Spark выглядит так: val input = sc.newAPIHadoopRDD(jconf, classOf[CqlInputFormat]...

Jenny.D / 23 сентября 2018

0 голосов

1 ответ

Разъем Spark Cassandra не поддерживает ByteOrderedParitioner?

Я использую spark-cassandra-connector_2.11-2.0.0.jar для подключения к Cassandra (версия 2.1.9)

Jenny.D / 23 сентября 2018

0 голосов

2 ответов

выберите столбцы и добавьте фиксированное пространство ширины между столбцами и сохраните в файле fixedWidth в Spark

Я хочу выбрать несколько столбцов из DF. Между столбцами мне нужно добавить разные пробелы, так как...

Katty / 22 сентября 2018

0 голосов

1 ответ

Тест Spark для Кубернетеса на Mac

Попытка построить образ из предоставленной загрузки.Используется опция загрузки пакета «Исходный...

Jon Boy / 22 сентября 2018

0 голосов

1 ответ

Как обработать исключение: «Нет подходящего драйвера» при запуске spark-submit

Я пытаюсь запустить искровой код, который будет читать таблицу в базе данных postgres и вставлять...

Metadata / 21 сентября 2018

0 голосов

1 ответ

Ошибка при получении максимального значения среди всех ключей

Используя PySpark, я хочу получить максимальное значение среди всех ключей пары RDD.Данные базового...

Soheil Pourbafrani / 21 сентября 2018

0 голосов

0 ответов

Запуск приложения Spark с внешним бэкэндом H2O

Я пытаюсь запустить кластер H2O автоматически во внешнем бэкэнде, как описано в этой документации ....

ngi / 21 сентября 2018

0 голосов

1 ответ

Искра - Получение исключения org.apache.spark.Logging не найден

Мы создаем приложение на основе Spark, используя Spark 2.3.0.Наши рабочие места Spark...

Anuj Mehra / 21 сентября 2018

0 голосов

2 ответов

Искра: совокупность против карты и уменьшение

Я изучаю Spark и начинаю понимать, как Spark распределяет данные и объединяет результаты.Я пришел к...

Sorin-Alexandru Cristescu / 21 сентября 2018

0 голосов

1 ответ

Как привести строку к метке времени с наносекундами в pyspark

Я работаю с данными с отметками времени, которые содержат наносекунды, и пытаюсь преобразовать...

Himanshu Gupta / 21 сентября 2018

0 голосов

2 ответов

PySpark Быстрый метод для разворота данных

Есть ли быстрый и эффективный способ разворачивать данные?Я использовал следующие методы, и хотя...

RonD / 21 сентября 2018

0 голосов

1 ответ

Кросс-таблица по дате и часу в искре

Образец DF: var someDF = Seq( (1, "2017-12-02 03:04:00"), (1, "2017-12-02...

vikky / 21 сентября 2018

0 голосов

0 ответов

Scala Spark: порядок изменений при записи DataFrame в файл CSV

У меня есть два фрейма данных, которые я объединяю с помощью объединения.После выполнения...

john / 21 сентября 2018

0 голосов

0 ответов

Spark не назначает задачи тому, кто находится в списке конечных точек

Я использую Spark для подключения к Кассандре.Входные разбиения: Input split:...

Jenny.D / 20 сентября 2018

0 голосов

1 ответ

Scala :: Читать несколько файлов паркета с различной информацией о схеме

У меня есть требование, при котором я должен читать файлы паркета в разных каталогах в HDFS

AHS / 20 сентября 2018

0 голосов

0 ответов

org.bson.codecs.configuration.CodecConfigurationException: не удается найти кодек для класса org.bson.BsonDecimal128

org.apache.spark.SparkException: задание прервано из-за сбоя этапа: задание 0 на этапе 0.0 не...

Keerthi / 20 сентября 2018

0 голосов

1 ответ

Как разместить файловые блоки HDFS с одинаковым / общим разделением, примененным для разных файлов / таблиц, в одном узле данных

У меня есть две большие таблицы, разбитые по столбцу даты.Они сохраняются в виде паркетных файлов в...

eakotelnikov / 20 сентября 2018