Вопросы с тегом Апач-искра

0 голосов

0 ответов

Понимание истекшего времени применения искры?

Запустил приложение spark на AWS emr, используя YARN в кластерном режиме, используя конфигурацию c4

O.O / 06 сентября 2018

0 голосов

1 ответ

Рекурсивно применить функцию к элементам массива искры dataFrame

Я написал следующую функцию, которая объединяет две строки и добавляет их в новый столбец кадра...

scalacode / 06 сентября 2018

0 голосов

1 ответ

Spark Java: оптимальный порог, используемый для расчета ROC в классе Spark BinaryClassificationMetrics

Я использую класс Spark mlib's BinaryClassificationMetrics для генерации метрик для вывода...

Tony / 06 сентября 2018

0 голосов

1 ответ

Запускать локальное задание DynamoDB без EMR

Я хочу запустить локальное задание Dynamodb без использования кластера EMR, которые читают данные...

Henbe / 05 сентября 2018

0 голосов

0 ответов

SPARK PAIRED RDD JOIN

Я пытаюсь соединить три разных RDD на спарк, но выдает ошибку val name= sc

Rupesh Kumar / 03 сентября 2018

0 голосов

1 ответ

Как настроить искровой кластер с разными типами рабов

Я довольно новичок, чтобы зажечь. Сейчас я пытаюсь выяснить, возможно ли настроить искровой кластер...

user3605981 / 01 сентября 2018

0 голосов

1 ответ

Поддержка смены типа в свечном паркете

Я столкнулся с одной проблемой при чтении паркета через искру. Один файл паркета был записан с...

Swapnil Chougule / 31 августа 2018

0 голосов

2 ответов

Передача аргументов из файла в несколько заданий поиска

Возможно ли иметь один главный файл, в котором хранится список аргументов, на который можно...

user3243478 / 30 августа 2018

0 голосов

0 ответов

Как редактировать конец s3 объектных ключей?

inputfile='s3a://storename/stores.csv' output_file='s3a://storename/newstores

sam / 30 августа 2018

0 голосов

2 ответов

Получить статус выхода для не выполненных заданий Spark при отправке через Spark-submit

Я отправляю задания на спарк с помощью spark-submit в автономном режиме. Все эти задания...

bytewalker / 29 августа 2018

0 голосов

1 ответ

Обработка данных очень большого объема (500 ТБ) с использованием искры

У меня большой объем данных, около 500 ТБ, мне нужно сделать несколько ETL для этих данных. Эти...

user3607698 / 28 августа 2018

0 голосов

1 ответ

Как экспортировать Scala Spark CrossValidatorModel в PMML?

У меня проблема с экспортом моей модели в PMML. моя модель использовала CrossValidatorModel, чтобы...

Miguel A. Friginal / 06 июля 2018

0 голосов

0 ответов

Как запустить колонку сходства после RDD groupBy

Я использовал KMeans, чтобы разделить свои элементы на наборы кластеров, а затем внутри каждого...

proximator / 05 июля 2018

0 голосов

1 ответ

Как правильно (масштабно) прочитать много файлов ORC в искру

Я хотел бы использовать EMR и Spark для обработки отчета об инвентаризации AWS S3, сгенерированного...

rmberg / 03 июля 2018

0 голосов

1 ответ

Показатели ошибок классификации мультикласса в Apache Spark

Возможно ли найти метрики ошибок (точность и отзыв) в задаче классификации мультикласса в Apache...

Rajnil Guha / 02 июля 2018

0 голосов

0 ответов

Метрики искрового разлива

Запуск заданий в кластере spark 2.3, я заметил в веб-интерфейсе spark, что разлив происходит для...

user4640449 / 29 июня 2018

0 голосов

1 ответ

Как сравнить два кадра данных в Scala

У меня есть два абсолютно одинаковых кадра данных для сравнительного теста df1...

Misha / 29 июня 2018

0 голосов

1 ответ

Spark Streaming с S3 против Kinesis

Я пишу приложение Spark Streaming, в котором входные данные помещаются в корзину S3 небольшими...

lfk / 25 июня 2018

0 голосов

1 ответ

Чтение данных из S3 во фрейм данных Spark с использованием Scala

Я пытаюсь прочитать данные из "s3: //fakePath/subFakePath/sub-sub-FakePath/*.gz" в искру,...

Sandeep / 09 июня 2018

0 голосов

1 ответ

Как смоделировать отношения «многие ко многим» с Apache Spark и Sparkube?

Давайте рассмотрим набор данных с простым отношением «многие ко многим»: банковские счета, которые...

RomainC / 06 июня 2018

0 голосов

1 ответ

Блокнот Zeppelin без модуля с названием pandas и matplotlib

Привет, ребята, Мой вопрос о ноутбуке Zeppelin.Я новичок в среде Zeppelin.У меня есть аккаунт AWS.Я...

Bugs_Bunny / 04 июня 2018

0 голосов

2 ответов

(Объединение в Spark) Как объединить два больших RDD Spark с сильно дублированными ключами без проблем с памятью?

В этом предыдущем вопросе я пытался избежать проблем с памятью с Spark join, избегая использования...

Thomas W / 29 мая 2018

0 голосов

0 ответов

Spark вывести схему и использовать ее для загрузки данных

Я хочу вывести схему из большого набора данных (скажем, данные за 6 месяцев) и использовать ее для...

Vijay Muvva / 29 мая 2018

0 голосов

1 ответ

Какое программное обеспечение я должен использовать для распределенного хранения и обработки графиков?

Проблема в двух словах: Существует огромное количество входных данных в формате JSON.Как сейчас,...

Gleb Ignatieff / 28 мая 2018

0 голосов

1 ответ

как кешировать случайные модели леса в искре

Моя платформа - spark 2.1.0, использующая язык Python. Теперь у меня есть около 100 моделей...

Guanglin Zhou / 27 мая 2018