Вопросы с тегом apache-искра

0 голосов

1 ответ

Как импортировать файл Python, используя сеанс спарк?

Я попытался импортировать другой файл python в моей текущей программе pyspark, используя...

Neha patel / 04 марта 2019

0 голосов

0 ответов

Почему rdd всегда пуст во время загрузки данных Кафки в реальном времени в HBase через PySpark?

Я пытаюсь выполнить в реальном времени ввод данных Kafka в HBase через PySpark в соответствии с...

thedbogh / 04 марта 2019

0 голосов

0 ответов

IllegalArgumentException: u "Опция 'basePath' должна быть каталогом"

Я пытаюсь прочитать файлы паркетных разделов S3 (fake - localstack), используя Pyspark (2.4) с...

agonen / 04 марта 2019

0 голосов

1 ответ

Простой ввод textFileStream: все строки / записи отправляются одному исполнителю.

Я использую python с потоковой передачей искры, и идея проста: сделать монитор потоковой передачи...

Michael / 03 марта 2019

0 голосов

1 ответ

Невозможно включить ведение журнала INFO для задания pyspark

Необходимо включить ведение журнала INFO для получения подробной информации, но можно...

Sourav Ghosh / 03 марта 2019

0 голосов

2 ответов

Как определить время подключения к центральному репозиторию Maven?

my pom.xml (просто кусок) выглядит следующим образом: <dependency> <groupId>org.apache

bib / 01 марта 2019

0 голосов

1 ответ

Проблема с производительностью в PySpark / Aws Glue

У меня есть датафрейм.Мне нужно преобразовать каждую запись в JSON, а затем вызвать API с полезной...

Basant Jain / 01 марта 2019

0 голосов

0 ответов

Как бороться с этой пробой PySpark?

У меня возникает следующая проблема каждый раз, когда я пытаюсь вызвать простое действие для rdd,...

Spartan / 01 марта 2019

0 голосов

1 ответ

Группировка нескольких столбцов без агрегации

У меня есть фрейм данных (Dataset<Row>), в котором шесть столбцов, из шести необходимо...

Vicky / 01 марта 2019

0 голосов

0 ответов

Поддержка Spark SQL для вложенных массивов и бинов

Каждый час я получаю некоторые обновления значений в качестве нового DataFrame.Я должен уменьшить...

VB_ / 01 марта 2019

0 голосов

1 ответ

Не удается собрать данные после сопоставления функции с PD-парком RDD

У меня есть один столбец pyspark.sql.dataframe.DataFrame (comments), это выглядит так:...

EddieZahoree / 28 февраля 2019

0 голосов

0 ответов

Обработка большого количества файлов с использованием PySpark

У меня есть приложение PySpark, которое обрабатывает файлы в папке, используя wholeTextFiles().Это...

Ashish Nijai / 28 февраля 2019

0 голосов

2 ответов

Несколько условий AND для одного столбца в pyspark без операции соединения

У меня есть таблица из трех столбцов [s,p,o].Я хотел бы удалить строки, чтобы для каждой записи в s...

user1848018 / 28 февраля 2019

0 голосов

0 ответов

Возвращать сложные типы из PySpark

Я пытаюсь вернуть матрицу значений из UDF Pandas Grouped Map. При определении схемы я даю Array...

ruggfrancesco / 28 февраля 2019

0 голосов

1 ответ

Spark - итерация между наборами данных без сбора данных

В определенный момент моего кода у меня есть два разных типизированных набора данных.Мне нужны...

RLM / 28 февраля 2019

0 голосов

1 ответ

Фрейм данных pyspark работает с несколькими столбцами динамически

В pyspark , предположим, у меня есть фрейм данных со столбцами с именем 'a1'...

Xinyu Zhou / 28 февраля 2019

0 голосов

0 ответов

Реализация LivyClientFactory не найдена

У меня проблема: я следую этому руководству по официальной документации Livy: [https://livy

THIBAULT Nicolas / 27 февраля 2019

0 голосов

1 ответ

Spark 2.4.0 Master понижается

Мы работаем с Spark 2.4.0 / Scala 2.11 и запускаем несколько потоковых приложений Spark, слушающих...

Lokesh Kumar P / 27 февраля 2019

0 голосов

1 ответ

Spark не может отфильтровать по строке, содержащей путь к папке

У меня странное поведение API запроса SQL sql, например: У меня есть следующий набор данных:...

Anton.P / 27 февраля 2019

0 голосов

0 ответов

Распределенные звонки отдыха и агрегировать

У меня есть сценарий использования для клиента, который должен загружать большие данные из...

illicit / 27 февраля 2019

0 голосов

0 ответов

Второе левое внешнее объединение не возвращает правильное количество строк с помощью Spark

В настоящее время я работаю с 3 фреймами данных и объединяю их вместе, начиная с фрейма network и...

sectechguy / 27 февраля 2019

0 голосов

1 ответ

spark read.csv неправильно анализирует временные метки

У меня есть файл csv presence.csv в моем файле данных: TIME,RESULT,PARENTLOCALIZATIONCODE...

Steven / 26 февраля 2019

0 голосов

1 ответ

Как я могу найти медиану первых значений каждого списка в фрейме данных pyspark?

values = [(u'[23,4,77,890,455]',10),(u'[11,2,50,1,11]',20),(u'[10,5,1,22...

RAM SHANKER G / 26 февраля 2019

0 голосов

0 ответов

Фрейм данных Pyspark эффективно получает столбцы с нулевыми значениями

У меня огромный кластер данных в искре.count показывает 24 миллиона строк.Также имеется более 900...

Rocky Li / 25 февраля 2019

0 голосов

2 ответов

Spark: переход в обратном направлении в кадре данных до тех пор, пока не будет выполнено условие

У меня есть фрейм данных в следующем формате:...

Himanshu Yadav / 25 февраля 2019