Вопросы с тегом апаш-искра

0 голосов

2 ответов

Какие зависимости добавить в проект scala для Apache Spark?

Мне нужно использовать следующие библиотеки - import org.apache.spark.SparkConf import org.apache

zzmay / 05 мая 2018

0 голосов

1 ответ

пакетная обработка на лазурном

Мы планируем выполнять пакетную обработку ежедневно. Мы генерируем 1 ГБ файлов CSV каждый день и...

milad ahmadi / 05 мая 2018

0 голосов

0 ответов

ошибка памяти при вычислении инверсии большой матрицы в искре

Я пытаюсь вычислить инверсию 25 ГБ матрицы в искре, я работаю в локальном режиме с машиной 6 ГБ в...

Lamine Lazreg / 05 мая 2018

0 голосов

2 ответов

Spark / scala - можем ли мы создать новые столбцы из существующего значения столбца в кадре данных

Я пытаюсь увидеть, сможем ли мы создать новые столбцы из значения в одном из столбцов в фрейме...

Lux / 04 мая 2018

0 голосов

1 ответ

Проблема с RDD пользовательских объектов в Spark

Я передаю тип в плоскую карту следующим образом; val customData: RDD[(Text/String, Custom)] =...

SparkleGoat / 04 мая 2018

0 голосов

1 ответ

Фиксация контрольных точек в искровых структурированных потоках

У меня проблема с контрольными точками в рабочей среде, когда spark не может найти файл из папки...

Yuriy Bondaruk / 04 мая 2018

0 голосов

1 ответ

Spark - Папка с тем же именем, что и текстовый файл, автоматически созданный после СДР?

Я поместил текстовый файл с именем Linecount2.txt в hdfs и построил простой rdd для подсчета...

abdul rahim / 04 мая 2018

0 голосов

1 ответ

Распределенный процесс обновления глобальной / единственной переменной в Spark

У меня проблемы с попыткой обработки огромного количества данных в кластере. код: val (sumZ,...

decay / 04 мая 2018

0 голосов

1 ответ

Ошибка в paramGrid в pyspark

Я использую paramGrid для точной настройки параметров моей модели. Вот следующий код. windowSize =...

Muss / 04 мая 2018

0 голосов

1 ответ

Как гарантировать эффективное использование ресурсов кластера компанией Futures in spark

Я хочу запустить несколько параллельных SQL в одном кластере, чтобы я мог использовать весь...

Krishas / 04 мая 2018

0 голосов

1 ответ

Изменение типа в искровой структуре данных

У меня есть следующая схема: root |-- Id: long (nullable = true) |-- element: struct (containsNull...

Alina / 04 мая 2018

0 голосов

1 ответ

Ошибка структурированной потоковой передачи py4j.protocol.Py4JNetworkError: Ответ со стороны Java пуст

Я пытаюсь сделать левое внешнее соединение между двумя Kafka Stream, используя PySpark и Structured...

Eric Bellet / 04 мая 2018

0 голосов

2 ответов

Создать файл Excel из API DataSet Spark Java?

Я хочу создать файл Excel из моего DataSet? SomeBody может помочь мне с примером выражения.

OOvic / 04 мая 2018

0 голосов

1 ответ

Как spark создает этапы и делит их на небольшие задачи для потока данных spark?

Когда я создаю поток данных в искре для входящих данных из kafka, я получаю следующее...

Rajendra Jangir / 04 мая 2018

0 голосов

0 ответов

Spark State Stream написать Кассандре

Я использую потоковую передачу pyspark для выполнения преобразования с сохранением состояния....

fali / 04 мая 2018

0 голосов

2 ответов

Поддерживает ли Spark Streaming Kafka 1.1.0 сейчас?

Теперь версия spark - 2.3. Я видел maven центральное хранилище: https://search.maven

Joe / 04 мая 2018

0 голосов

0 ответов

Невозможно протестировать Hbase, поддерживаемый S3 от Spark

Я написал простую программу для чтения данных из HBase, программа работает в Cloudera с поддержкой...

Alchemist / 04 мая 2018

0 голосов

2 ответов

Spark обновление кэшированного набора данных

У меня есть отсортированный набор данных, который обновляется (фильтруется) внутри цикла в...

Daniele Foroni / 04 мая 2018

0 голосов

1 ответ

Избегайте перераспределения затрат при фильтрации, а затем объединении

Я выполняю запрос диапазона в СДР точек (x, y) в pyspark. Я разделил пространство xy на сетку 16 *...

user302787 / 04 мая 2018

0 голосов

1 ответ

Отчетливое количество записей в кадре данных Spark

Я пытаюсь отобразить различное количество пары разных столбцов в кадре данных spark, а также...

CaroV1x3n / 04 мая 2018

0 голосов

1 ответ

Анализ настроений с использованием Spark и Stanford NLP API

Когда я захотел сделать проект по анализу настроений, я много раз искал в Интернете, и, наконец, я...

Mohammed Zubair Khan / 03 мая 2018

0 голосов

0 ответов

Невозможно оценить модель ML для структурированной потоковой передачи, поскольку преобразования и действия RDD вызываются внутри других преобразований.

Это хорошо известное ограничение [1] структурированной потоковой передачи, которое я пытаюсь обойти...

maverik / 03 мая 2018

0 голосов

1 ответ

Как обрабатывать нулевые значения при записи в паркет из Spark

До недавнего времени parquet не поддерживал null значения - сомнительная предпосылка. Фактически,...

javadba / 03 мая 2018

0 голосов

0 ответов

Как позвонить в сервис AWS Lambda от Spark

Я хотел бы взять каждую строку моего кадра данных Spark и обработать данные через микросервис,...

SriK / 03 мая 2018

0 голосов

0 ответов

Как разобрать несколько структур JSON в программе Spark

Я работаю над анализом логов (в формате Json) в Scala. Я не знаю, как поступить. Я могу получить...

oortcloud_domicile / 03 мая 2018