Вопросы с тегом апаша-искра

0 голосов

1 ответ

org.apache.spark.SparkException: задание прервано из-за сбоя этапа:

Вот моя цель, прочитать таблицу mysql (50 миллионов + строк) в hdfs. версия свечи: 3.0.3 object...

William Chan / 26 августа 2018

0 голосов

0 ответов

Spark: разделить поток элементов на поток списков элементов

Я хотел бы разбить СДР на последовательности элементов, разделенных разделителем. Скажи, у меня...

Soid / 26 августа 2018

0 голосов

0 ответов

Разбор огромных многострочных сжатых файлов с помощью sc.textFiles в Scala

Я пытаюсь проанализировать архивированный файл размером 20 ГБ в многострочном формате. Я пытаюсь...

kruparulz14 / 25 августа 2018

0 голосов

1 ответ

Как прочитать сжатый (gzip) файл без расширения в Spark

Я новичок в Spark, и у меня есть веселая задача, в которой я должен прочитать кучу файлов из S3, в...

g.cyberian / 25 августа 2018

0 голосов

2 ответов

Scala / Spark: Как проверить, содержит ли фрейм данных СПЕЦИФИЧЕСКИЙ список столбцов?

Как я могу проверить, содержит ли мой DF список столбцов? Я попробовал это: finalDF.columns

NoName / 24 августа 2018

0 голосов

1 ответ

Десериализация бед с clojure и игристые

Я новичок в Spark и довольно новичок в Clojure (хотя мне действительно нравится то, что Clojure...

Matt / 24 августа 2018

0 голосов

0 ответов

Scala spark, как исправить эту задачу, не сериализуем

Итак, у меня есть простой UDF object Constants extends Serializable { val COMMA_DELIMITER: String =...

test acc / 24 августа 2018

0 голосов

1 ответ

UDF для цикла в PySpark

Часть кода ниже пытается сделать следующее: Для каждого customer_code в sdf1 проверьте,...

Charles Van Damme / 24 августа 2018

0 голосов

0 ответов

Scala - ошибка: основной метод не найден в классе

Я пытался запустить приведенный ниже код Scala для Spark в Eclipse :: package org.spark.learning...

Sankar / 06 июля 2018

0 голосов

1 ответ

Обновление данных из двух фреймов данных Scala-Spark

У меня есть два кадра данных: DF1: ID | Col1 | Col2 1 a aa 2 b bb 3 c cc DF2: ID | Col1 | Col2 1 ab...

Carina / 06 июля 2018

0 голосов

1 ответ

PySpark разбирает массив объектов (формат JSON) на один столбец df

У меня есть массив вложенных объектов JSON, подобный этому: [ { "a": 1, "n": {}...

makar / 06 июля 2018

0 голосов

2 ответов

NumberFormatException при попытке выполнить sort () или orderBy () на фрейме данных в искре с использованием scala?

У меня есть фрейм данных df , который имеет 3 столбца (как показано на рисунке). фрейм данных когда...

candyculen / 06 июля 2018

0 голосов

1 ответ

Как написать тесты spark-scala для запуска / подключения к кластеру hadoop?

Я создаю тесты для процесса spark / scala для написания блок-тестов (например, Junits). У меня есть...

Srinivas Bandaru / 06 июля 2018

0 голосов

2 ответов

Spark-Scala конвертирует строку чисел в двойную

Я пытаюсь сделать плотный вектор из строки. Но сначала мне нужно конвертировать в двойную. Как мне...

mushg / 06 июля 2018

0 голосов

0 ответов

Статистика выполнения запросов для распараллеленных коллекций в Spark

При вычислении статистики для простого распараллеленного сбора в Spark 2.3.0 я получаю некоторые...

Nick / 05 июля 2018

0 голосов

1 ответ

Apache Spark для бизнес-процесса?

Я понимаю возможности Spark / Hadoop для работы с большими данными, но меня просят использовать их...

The Shoe Shiner / 05 июля 2018

0 голосов

1 ответ

спарк-коп передача файлов питона в zip не работает

Я пытаюсь отправить приложение Python, используя spark-submit, например: spark-submit \ --conf...

Tw UxTLi51Nus / 05 июля 2018

0 голосов

0 ответов

Создание проекта Spark Scala с использованием Bazel

Я хочу построить проект Spark с Scala, используя Bazel, который был построен с использованием SBT и...

Sandhya / 05 июля 2018

0 голосов

0 ответов

Чтение 500 миллионов записей с Кассандры с использованием проблем с искрой

Ребята, я использую приведенный ниже код, чтобы прочитать всю таблицу из cacssandra, используя...

Anish Shetty / 05 июля 2018

0 голосов

1 ответ

AWS Glue: Как подключить oracle db с помощью JDBC

Когда я пытаюсь подключиться к внешней базе данных Oracle из AWS Glue, используя JDBC, получаю...

Sreeni / 05 июля 2018

0 голосов

2 ответов

Pyspark получить схему из файла JSON

Я пытаюсь получить Pyspark схему из файла JSON, но когда я создаю схему, используя переменную в...

Sumit Gupta / 05 июля 2018

0 голосов

1 ответ

Настройка Spark Query - текущий запрос занимает слишком много времени

У меня есть запрос на искру, как показано ниже select a.unique_id as unique_id, first(a

N29 / 05 июля 2018

0 голосов

0 ответов

Может ли sparksql или hiveserver2 подключаться к 2 разным метасторам одновременно?

Вариант использования: Datastax DSE Cluster под управлением Cassandra, HiveMetastore (на основе...

tooptoop4 / 05 июля 2018

0 голосов

1 ответ

Настройка порта и имени хоста при использовании spark для подключения к cassandra с использованием драйвера datastax

В настоящее время я пытаюсь подключиться к базе данных Apache Cassandra, используя Apache Spark (2

dillon37 / 05 июля 2018

0 голосов

0 ответов

Поток воздуха прекращается после задания Spark, переданного через SSH

Я использую автономный Apache Airflow для отправки заданий Spark с помощью SSHExecutorOperator для...

GreGGus / 04 июля 2018