Вопросы с тегом pyspark

0 голосов

1 ответ

Структурированная потоковая передача Kafka Не удалось создать экземпляр KafkaSourceProvider

Я работаю над потоковым проектом, где у меня есть поток статистики ping kafka, например: 64 bytes...

pissall / 21 января 2019

0 голосов

1 ответ

разбиение столбца словаря на несколько столбцов в pyspark

Column Names Production_uint_id,batch_id,items_produced,items_discarded Data: P188 gv962...

vishal kumar / 21 января 2019

0 голосов

1 ответ

Чем отличается pandas_udf от Pyspark и to_pandas?

Когда я очищаю большие данные с помощью панд, у меня есть два метода: один метод - использовать...

wangkang / 21 января 2019

0 голосов

2 ответов

Как сжать два столбца массива в Spark SQL

У меня есть датафрейм Pandas. Я попытался сначала объединить два столбца, содержащих строковые...

Falconic / 21 января 2019

0 голосов

3 ответов

lowerByKey список списков в PySpark

Я новичок в pyspark, и пока немного сложно понять, как он работает, особенно когда вы используете...

Mehdi Mansouri / 21 января 2019

0 голосов

1 ответ

Объединить условие во фреймах данных со списком в качестве записей

У меня есть 2 фрейма данных со следующими записями: df1- +----------+--------------------+ | id1|...

Shray Khanna / 20 января 2019

0 голосов

0 ответов

Как я могу экспортировать очень большой файл данных PySpark в виде файла CSV?

Мой вопрос может быть похож на некоторые другие вопросы по stackoverflow, но он немного отличается....

Monirrad / 20 января 2019

0 голосов

2 ответов

Ошибка использования встроенной функции python ** abs ** в pyspark-2.3

Я пытался преобразовать отрицательное число в положительное, используя встроенную в Python функцию...

harikrishnasiliveri / 20 января 2019

0 голосов

1 ответ

PySpark заполнить отсутствующее / неправильное значение сгруппированным средним

У меня есть фрейм данных Spark с одним отсутствующим и одним неправильным значением. from pyspark

Jason / 20 января 2019

0 голосов

0 ответов

Pyspark - конвертировать элементы массива в нижний регистр

У меня есть искровой фрейм данных со столбцом, содержащим массив строк. Как преобразовать этот...

parasu / 19 января 2019

0 голосов

1 ответ

UDF Python с несколькими аргументами

Задача состояла в том, чтобы вывести всех руководителей сотрудников на уровень выше в Spark....

San / 19 января 2019

0 голосов

0 ответов

Влияние скейлеров на категориальные столбцы в PySpark

Когда я посмотрел на реализацию PySpark ml, я увидел стандартизированный скейлер, примененный после...

user46744 / 19 января 2019

0 голосов

1 ответ

как получить доступ к СДР в другом СДР?

У меня есть 2 RDD (в pyspark) в форме rdd1=(id1, value1) и rdd2=(id2, value2), где id уникальны (т....

bib / 19 января 2019

0 голосов

1 ответ

Почему pyspark sql запрос против S3 возвращает нули

Я получаю разные результаты при выполнении одного и того же запроса в Афине для источника S3 по...

Thom Rogers / 19 января 2019

0 голосов

1 ответ

Добавление столбца в фрейм данных PySpark включает стандартные отклонения столбца на основе группировки по двум другим столбцам

Предположим, что у нас есть CSV-файл, который был импортирован в виде фрейма данных в PysPark...

Monirrad / 19 января 2019

0 голосов

1 ответ

Как показать столбец в фрейме данных PySpark в научной нотации в правильном формате

Предположим, что у меня есть фрейм данных в pyspark следующим образом: +---------+---------+ | col1...

Monirrad / 18 января 2019

0 голосов

0 ответов

Как setInitMode () для объекта KMeans влияет на использование параметра setSeed () в PySpark?

Документация по этому вопросу не помогла, поэтому я ищу человека, который лучше понимает.Объект...

MisterJT / 18 января 2019

0 голосов

0 ответов

Видимость таблиц Spark в нескольких скриптах Python

Я использую Spark 2.4.0 в кластере AWS. Целью является ETL, и он в значительной степени основан на...

dagspark / 18 января 2019

0 голосов

0 ответов

DataFrame от Pandas до Spark, очевидно, работает, но затем не может работать с Spark DF

Я работаю с DF в пандах, затем я хочу обработать эти данные с помощью Spark, поэтому я создаю DF в...

Fernando / 18 января 2019

0 голосов

1 ответ

pyspark udf печать анализируемая строка

У меня проблема внутри функции pyspark udf, и я хочу напечатать номер строки, генерирующей проблему

Francesco Boi / 18 января 2019

0 голосов

1 ответ

PySpark проблемы с загрузкой непригодного объекта модели

Я играл с save и load функциями pyspark.ml.classification моделей. Я создал экземпляр...

Clock Slave / 18 января 2019

0 голосов

1 ответ

Как работает отображение на rdd в pyspark?

Я изучал pyspark, когда столкнулся с этим. from pyspark.sql import Row df = spark

Shilpa / 18 января 2019

0 голосов

0 ответов

Ошибка MLeap serializeToBundle для пользовательского Трансформера Pyspark

У меня есть пользовательский Transformer Pyspark, который я пытаюсь сериализовать в объект bundle...

femibyte / 18 января 2019

0 голосов

0 ответов

атрибут date_trunc не найден

Я создаю связующее задание, которое будет считывать информацию из s3, выполнять запрос и выводить...

Eumcoz / 17 января 2019

0 голосов

1 ответ

Как сделать и эффективно запустить «пустую» пользовательскую функцию PySpark (UDF), которая ничего не возвращает?

Учитывая доступные методы для указания пользовательских функций в PySpark: Нестандартные...

Jake Spracher / 17 января 2019