Вопросы с тегом Apache-искра

0 голосов

1 ответ

Приложение, загруженное в Apache Livy, завершается ошибкой, если не скомпилировано со всеми jar-зависимостями

Я отправляю пакетное задание, задание Пи, с командой curl Ливи, но это не удается из-за java.lang

José / 30 августа 2018

0 голосов

0 ответов

pyspark - чтение искаженного файла .gz

Я читаю сжатый файл .gz в pyspark на EMR. Но файл имеет неправильный формат (это файл json с...

TopCoder / 30 августа 2018

0 голосов

1 ответ

Преобразовать словарь в фрейм данных в pyspark для ключа Unicode и списка значений с плавающей запятой

У меня есть экземпляр словаря, который имеет Unicode (использует UTF-8) ключ и значение в качестве...

Ajay / 29 августа 2018

0 голосов

0 ответов

Миграция с Spark Jobserver на Apache Livy

Я работал с автономным сервером Spark с Jobserver. По x причинам мне пришлось перейти на Ambari...

José / 29 августа 2018

0 голосов

0 ответов

Настройка мастер-URL для свечей в pyspark для конкретного IP

Я пытаюсь подключить свой локальный IP-адрес с помощью сеанса спарка: - spark = SparkSession.\...

charchit bakliwal / 29 августа 2018

0 голосов

2 ответов

pivepark Hive Context - чтение таблицы с кодировкой UTF-8

У меня есть таблица в улье, и я читаю эту таблицу в pyspark df_sprk_df from pyspark import...

Shivpe_R / 29 августа 2018

0 голосов

1 ответ

Использование слюней в работе Spark

Я пытаюсь использовать слюни в искровой работе, переданной в кластер. Работа начнется с получения...

Wassim D / 29 августа 2018

0 голосов

3 ответов

Медленное зажигание - Java

Я пытаюсь создать искровое приложение, которое получает набор данных lat , long , timestamp points...

Giannoulo / 29 августа 2018

0 голосов

1 ответ

RDD Collect Issue

Я настроил новую систему, spark 2.3.0, python 3.6.0, чтение данных и другие операции, работающие...

Aakash Basu / 29 августа 2018

0 голосов

1 ответ

Apache Spark: бесконечный цикл при удаленном запуске задания из IDE

У меня есть apache spark автономный кластер, и я хочу запустить на нем работу spark с удаленного...

DAVID_ROA / 29 августа 2018

0 голосов

1 ответ

Как читать текстовый файл без имени столбца, используя спарк Dataframe в Java

Я использую Spark DataFrame для чтения текстового файла, и каждая строка разделяется одним пробелом...

DuFei / 29 августа 2018

0 голосов

1 ответ

как конвертировать текстовый файл в паркет с помощью Java Spark

Я пытаюсь преобразовать текстовый файл в файл паркета. Я могу найти только «как конвертировать в...

Hưởng Lê Văn / 28 августа 2018

0 голосов

0 ответов

Проблемы с подключением OrientDB к Spark с использованием драйвера JDBC в Java

мы начинаем использовать OrientDB в нашем приложении. Мы используем его для хранения множества...

L. Don / 28 августа 2018

0 голосов

0 ответов

Запуск файла Python с искрой

Я использую искру с jupyter, и все в порядке, но теперь я пытаюсь использовать ее с колбой каждый...

Caroline / 28 августа 2018

0 голосов

0 ответов

Как получить доступ к переменной Java Spark Broadcast?

Я пытаюсь передать искру Dataset, чтобы получить доступ к ней из функции map. Первый оператор print...

Tauling / 28 августа 2018

0 голосов

1 ответ

Расшифровать сообщение Kafka-mqtt

Я получаю сообщения от брокера mqtt по теме kafka, используя соединитель kafka-mqtt. Затем я...

Francesco / 28 августа 2018

0 голосов

0 ответов

Как зарегистрировать java jar в Spark job (scala) и вызвать методы, доступные в jar?

Я много искал, но не смог найти ссылку на задание Spark, настроенное на Java, которое может...

miniQ / 28 августа 2018

0 голосов

0 ответов

Альтернатива для операторов DELETE и UPDATE в SPARK

Я конвертирую Java-пакеты в Spark, используя Java язык. Существующий код приложения содержит...

Raj / 28 августа 2018

0 голосов

1 ответ

Как преобразовать даты в формате «ДД / ММ / ГГГГ» в фрейме данных pyspark?

У меня есть датафрейм: |2018/12/04| mop-MD00094(Kg.)| 2500.0| 147.0| 367500.0| |2018/12/04|...

eduliant / 28 августа 2018

0 голосов

1 ответ

Получить нулевую дату при чтении фрейма данных в pyspark?

У меня есть CSV-файл с данными в формате ниже 02/04/2018,MZE-RM00007(Kg.),29530,14.5,428185...

eduliant / 28 августа 2018

0 голосов

2 ответов

Использование значения столбца при приведении другого столбца в кадре данных искры

У меня есть такой фрейм данных: rdd1 = sc.parallelize([(100,2,1234.5678),(101,3,1234.5678)]) df =...

vishnu ram / 28 августа 2018

0 голосов

1 ответ

Исключение в потоке "broadcast-exchange-0" java.lang.OutOfMemoryError: Недостаточно памяти для построения и трансляции таблицы всем рабочим узлам

Я использую приложение spark в конфигурации ниже: 1 мастер, 2 рабочих узла. Каждый работник имеет...

Raj / 27 августа 2018

0 голосов

1 ответ

Pyspark Dataframe: Проверьте, являются ли значения в столбцах даты действительными

У меня есть искровой DataFrame, импортированный из файла CSV. После применения некоторых...

RaspyVotan / 27 августа 2018

0 голосов

1 ответ

Фильтр фрейма данных Pyspark по вхождению на основе столбца

У меня есть фрейм данных pyspark, и я хочу отфильтровать фрейм данных со столбцами A и B. Теперь я...

Aditya Thakkar / 27 августа 2018

0 голосов

0 ответов

Размер кэша набора данных и размер кэша RDD с большой разницей

Сначала я использую SparkSQL для чтения таблицы с двумя миллионами строк, а затем кеширую ее...

FakeYuda / 27 августа 2018