Вопросы с тегом apache-искра

0 голосов

1 ответ

Отправить python-зависимости в спарк кластер

Есть ли какой-нибудь правильный способ передачи сложных зависимостей в spark с использованием...

Arli Chokoev / 07 февраля 2019

0 голосов

2 ответов

Групповой набор данных по месяцам с отметкой времени в java

Я загрузил все строки из таблицы в набор данных, используя сеанс spark в Java.Я хочу получить...

Reshma Raveendran / 07 февраля 2019

0 голосов

2 ответов

Сбой Spark с NoClassDefFoundError для org.apache.kafka.common.serialization.StringDeserializer

Я занимаюсь разработкой универсального приложения Spark, которое прослушивает поток Kafka с...

tinkerbeast / 07 февраля 2019

0 голосов

1 ответ

Как подключить PySpark к Elasticsearch с SSL и проверить, установлены ли сертификаты на False?

Ранее я успешно подключился к кластеру Elasticsearch напрямую из Python со следующим кодом:...

LaserJesus / 07 февраля 2019

0 голосов

0 ответов

Apache Spark Mllib StringIndexer невидимые метки во время посадки

Я использую spark 2.2.0 для процесса ETL, а mlllib StringIndexer создает невидимое исключение метки...

o11306650 / 07 февраля 2019

0 голосов

0 ответов

Используя Java, удалите пустую запись (с нулевым И все типы пробелов) из фрейма данных Spark

Когда я говорю все виды пробелов, я имею в виду пробел или пробел.Таким образом, эта строка может...

Brian Gurka / 07 февраля 2019

0 голосов

1 ответ

Как оптимально передать большой объект в качестве дополнительного параметра функции карты без копирования этого объекта между рабочими местами / заданиями?

У меня есть список кортежей (tuples_list).Я хочу выполнить операцию с картой, но часть операции с...

Joshua Mitchell / 06 февраля 2019

0 голосов

1 ответ

PySpark 2.4: TypeError: Столбец не повторяется (с использованием F.col ())

Следующее дает мне исключение TypeError: Column is not iterable: from pyspark.sql import functions...

NYCeyes / 06 февраля 2019

0 голосов

0 ответов

Java Spark sql Dataset <Row>написать паркет

При записи набора данных в паркет произошла следующая ошибка. data.write()

Sanket M / 06 февраля 2019

0 голосов

1 ответ

Как использовать lambda flatMap () в Java с Spark 2.1

Я портирую через приложение Python на Java и застрял на правильном пути реализации лямбда flatMap()

MrBabbels / 06 февраля 2019

0 голосов

0 ответов

Как исправить UnsupportedOperationException при использовании spark joinWith для создания Tuple2

Я использую Java с Spark.Мне нужно создать набор данных Tuple2 путем объединения двух отдельных...

Ann / 05 февраля 2019

0 голосов

1 ответ

Обработка ошибок на уровне строк Spark, как получить сообщение об ошибке на уровне строк

У меня есть CSV-файл, который я загружаю через спарк.Я хочу разделить хорошие и плохие записи, а...

PRASANTA / 05 февраля 2019

0 голосов

1 ответ

PySpark выполняет задание в автономном режиме, но с пользовательскими модулями?

Я установил искру на какой-либо машине, чтобы использовать ее в автономном режиме кластера.Так что...

Iulian / 05 февраля 2019

0 голосов

2 ответов

Исключение PySpark в облаке

Я использую spark 2.4.0 в Google Cloud Compute Engine с CentOS 6 и 3,75 ГМ памяти.Когда я пытался...

Parijat Bose / 05 февраля 2019

0 голосов

1 ответ

Как скопировать файл в pyspark / hadoop из python

Я использую pyspark для сохранения фрейма данных в виде файла паркета или в виде файла csv с этим:...

someguy / 05 февраля 2019

0 голосов

2 ответов

Как получить проценты по каждой категории на указанную дату с помощью PySpark

Даем попробовать в Pyspark и боремся. У меня есть это здесь ... internal_pct_by_day = df_resampled

Frankie / 05 февраля 2019

0 голосов

1 ответ

spark-submit --master local [n] не может создавать многопоточность

Я пишу код pyspark для обработки некоторых данных spark-sql. В прошлом месяце все работало отлично,...

xinwei li / 04 февраля 2019

0 голосов

3 ответов

Алгоритм Spark Overlap с использованием Dataframes

Имеется источник данных с полями: product_id - product - start_time - end_time Я пытаюсь построить...

Vzzarr / 04 февраля 2019

0 голосов

0 ответов

Массовое обновление в Spark - Elasticsearch

Я получаю события из темы Кафки и предварительно агрегирую их перед сохранением в Elastic Search

alina / 04 февраля 2019

0 голосов

1 ответ

Spark: вычесть значения в одной строке DataSet

Учитывая следующий набор данных: | title | start | end | bla | 10 | 30 Я хотел бы найти разницу...

JBoy / 04 февраля 2019

0 голосов

1 ответ

Приложение PySpark отправляет ошибку в режиме кластера пряжи

Я пытаюсь отправить свое приложение PySpark в режиме кластера, и при отправке приложения я получаю...

Rahul / 04 февраля 2019

0 голосов

1 ответ

как подключить sparkcontext к CDH 6 на пряже

Я пытаюсь запустить простую функцию mllib (fpgrowth) из Java с удаленного компьютера в версии...

m scorpion / 04 февраля 2019

0 голосов

2 ответов

Разбор Windows CSV на Linux в Apache Spark

Я пытаюсь проанализировать CSV-файл, полученный с компьютера с Windows, на компьютере с Linux,...

Laura Webster / 03 февраля 2019

0 голосов

1 ответ

Как pyspark RDD countByKey () считается?

Перед публикацией этого вопроса я искал сообщество и ссылался на документы pyspark, но до сих пор...

SivaTP / 03 февраля 2019

0 голосов

2 ответов

Как вы создаете новые столбцы из каждого элемента в строке с помощью spark / pyspark

Я пытаюсь взять столбец в Spark (используя pyspark) со строковыми значениями, такими как «A1», «C2»...

schmidtbit / 03 февраля 2019