Вопросы с тегом апаш-искра

0 голосов

0 ответов

Достигнуто максимальное количество итераций (100) для пакетной оптимизации операторов

Я получаю эту ошибку при выполнении большого количества запросов Spark SQL.В запросах много...

Prashant / 26 февраля 2019

0 голосов

0 ответов

Включение распараллеливания в Spark с разделением Pushdown в MemSQL

У меня есть таблица columnstore в MemSQL, схема которой аналогична приведенной ниже: CREATE TABLE...

VarunG / 26 февраля 2019

0 голосов

1 ответ

Ведение журнала в потоковой структуре с искрой / SparkException: задача не сериализуется

Я пытаюсь портировать приложение Apache Flink (scala) на структурированную потоковую передачу Spark

user826955 / 26 февраля 2019

0 голосов

0 ответов

Искра RDD treeReduce vs Набор данных уменьшить

Spark RDD имеет вариацию снижения, называемую treeReduce, которая очень эффективна, поскольку...

rakesh / 26 февраля 2019

0 голосов

1 ответ

TypeError: невозможно выбрать объекты генератора: сбой Spark collect () из-за несериализуемого возвращаемого типа генератора (dict_key)

У меня есть библиотечная функция, которая возвращает составной объект, содержащий генераторы,...

StackG / 26 февраля 2019

0 голосов

1 ответ

Чтение CSV-файла с переменным числом запятых в качестве фрейма данных в PYSPARK

У меня есть файл, разделенный запятыми, без заголовка, с различным количеством элементов в каждой...

Samer Ayoub / 26 февраля 2019

0 голосов

0 ответов

Apache Spark (Hadoop) Записывает файл _SUCCESS дважды

У меня есть задание Apache Spark, которое записывает набор данных паркета в хранилище BLOB-объектов...

pdist / 26 февраля 2019

0 голосов

0 ответов

Spark Streaming - Диагностика: контейнер работает за пределами физической памяти

Не удалось выполнить задание My Spark Streaming со следующим исключением Диагностика: Контейнер...

yAsH / 25 февраля 2019

0 голосов

0 ответов

паркетные поля, показывающие NULL при чтении через HIVE, НО, показывающие значения при чтении через spark

Я записываю свой фрейм данных искровой потоковой передачи в виде файла паркета в моей HDFS.Я создал...

BigD / 25 февраля 2019

0 голосов

1 ответ

Проверьте файл при потоковой передаче файла csv с помощью scala

Я работаю с потоковой передачей и не хочу обрабатывать старые файлы, когда новый потоковый файл...

b2ooba / 25 февраля 2019

0 голосов

1 ответ

Соедините n элементов после элемента в списке с самим списком

Использование PySpark. Follow : я думаю, что мне нужно только знать, как выбрать n элементы после...

Tony / 25 февраля 2019

0 голосов

0 ответов

Сломанный разделитель трубы, используемый в scala при сохранении фрейма искры

Я использую разорванный канал (¦), значение ascii = \ u00A6, в качестве разделителя при сохранении...

Kumar Ashish / 25 февраля 2019

0 голосов

1 ответ

Как выполнить запросы к таблицам Hive, отправленным через Kafka, в приложении Spark Streaming?

У меня есть приложение Spark Streaming, которое считывает имена таблиц Hive в записях Kafka,...

Srijit / 25 февраля 2019

0 голосов

0 ответов

Загрузка данных Kafka в HBase через PySpark - произошла ошибка при вызове None.org.apache.spark.streaming.api.java.JavaStreamingContext

Я пытаюсь настроить поступление данных Кафки в реальном времени в HBase через PySpark в...

thedbogh / 25 февраля 2019

0 голосов

1 ответ

Как разделить один многократный категориальный столбец на двоичный, как один горячий кодер, с использованием искры scala?

Мои данные таковы: +---+---------+ | id|cate_list| +---+---------+ | 0| a,b,c,d| | 1| b,c,d| | 2| a...

宋国庆 / 25 февраля 2019

0 голосов

0 ответов

Рассматривает ли Spark SQL ограничение при объединении?

Я провел следующий эксперимент. Запрос 1: select f1, f2 from A where id = 10 limit 1 | f1 | f2 |...

Joe C / 25 февраля 2019

0 голосов

1 ответ

Как реализовать однократную обработку при чтении чтения из каталога с использованием Spark Structured Streaming?

Я бы хотел использовать концепцию потоковой обработки для чтения файлов из локального каталога и...

Indira / 25 февраля 2019

0 голосов

1 ответ

Подстрока Pyspark одного столбца на основе длины другого столбца

Использование Pyspark 2.2 У меня есть спарк DataFrame с несколькими столбцами.Мне нужно ввести 2...

Wynn / 25 февраля 2019

0 голосов

1 ответ

Проверьте, что в строке Spark Dataframe есть ЛЮБОЙ столбец, соответствующий условию, и остановитесь, когда первый такой столбец найден

Следующий код можно использовать для фильтрации строк, которые содержат значение 1. На изображении...

thebluephantom / 25 февраля 2019

0 голосов

1 ответ

Запрос Hive on Spark зависает при недостаточных ресурсах

Я пытаюсь настроить Hive on Spark на одной маленькой виртуальной машине (4 ГБ ОЗУ), но не могу...

Bořivoj Vlk / 24 февраля 2019

0 голосов

0 ответов

Apache Spark: Как читать миллионы (5+ миллионов) маленьких файлов (по 10 КБ каждый) с S3

Общий обзор моей цели: мне нужно найти файл (ы) (они в формате JSON), которые содержат определенный...

fletchr / 24 февраля 2019

0 голосов

1 ответ

Преобразовать список пар ключ-значение в каждой строке СДР в один ключ-значение в каждой строке

У меня есть RDD как List((a,b),(b,c)) List((d,e)) Как я могу получить его как (a,b) (b,c) (d,e) Я...

user3607109 / 24 февраля 2019

0 голосов

1 ответ

Как запустить запрос для каждой записи в кадре данных?

У меня есть сценарий, где нужно выполнить запрос для каждой записи из кадра данных.Я бегу в...

GKrish / 24 февраля 2019

0 голосов

0 ответов

Задание прервано из-за сбоя этапа: задача не сериализуема: java.io.NotSerializableException

Я использую Apache Toree ядро scala для Jupyter Notebook, в котором используется конфигурация...

Radu Oleanu / 24 февраля 2019

0 голосов

1 ответ

Будут ли небольшие файлы распространяться по разделам в JavaPairRDD?

Это может быть глупый вопрос, но я не могу понять, как файлы распределяются по разделам.Мое...

Shashank V C / 24 февраля 2019