Вопросы с тегом pyspark

0 голосов

0 ответов

Как я могу получить окончательную правдоподобие для модели MLlib GaussianMixtureModel?

Я работаю с RDD и инициализирую свою модель с помощью GMM.Дело в том, что я тренирую несколько GMM...

J.Pp / 06 июля 2019

1 голос

2 ответов

PySpark Cum Сумма двух значений

xmarston / 06 июля 2019

1 голос

2 ответов

PySpark: примените регулярное выражение, чтобы удалить нежелательный текст и сделать ввод допустимым JSON

У меня есть файл JSON, который, к сожалению, содержит нежелательный текст перед каждой строкой:...

Rock / 06 июля 2019

1 голос

1 ответ

Как правильно получить доступ к SparkSession от работника?

Я только что понял, что много раз вызываю следующий код, и это кажется неправильным: spark =...

Flavio Pegas / 06 июля 2019

0 голосов

1 ответ

Получение "повысить EOFError" при вызове функции df.show ()

У меня есть фрейм данных (df) с 1 миллионом строк и двумя столбцами (ID (long int) и описание...

Shariful Islam / 05 июля 2019

0 голосов

0 ответов

Как вызвать подпроцесс после цикла for

У меня есть скрипт pyspark, как показано ниже.В этом сценарии я собираю stdout и stderr сценария в...

Miguel A. Friginal / 05 июля 2019

0 голосов

1 ответ

pyspark: допустимые строки для передачи в dataType arg cast ()

Я разместил это как комментарий в этом полу-связанном вопросе , но я чувствовал, что ему нужна...

seth127 / 05 июля 2019

0 голосов

1 ответ

Pyspark dataframe - конвертировать данные кортежей в строки

Я хочу преобразовать данные кортежа в фрейме данных pyspark в строки на основе двух ключей....

Jack / 05 июля 2019

0 голосов

1 ответ

Как проанализировать значение метки времени и изменить значения метки времени

С учетом этого значения метки времени 2019-01-29T16: 22: 54 + 00: 00 (в этом формате ГГГГ-ММ-ДДЧч:...

fusolage / 05 июля 2019

3 голосов

0 ответов

PySpark: ModuleNotFoundError: нет модуля с именем «приложение»

Я сохраняю фрейм данных в файл CSV в PySpark, используя следующую инструкцию: df_all.repartition(1)

ankit / 05 июля 2019

0 голосов

0 ответов

Установка параметров SparkSession с помощью SparkConf ()

Пожалуйста, обратитесь к коду ниже. from pyspark.sql import SparkSession from pyspark import...

Van / 05 июля 2019

0 голосов

0 ответов

Создать новый Dataframe из элемента Json внутри XML с помощью Pyspark

Привет, я имею дело с довольно сложным XML-файлом, который я пытаюсь переформатировать и очистить...

SaadK / 05 июля 2019

0 голосов

0 ответов

Почему оболочки Spark (PySpark или Scala) работают в режиме клиента, а не в режиме кластера?

Я всегда понимал, что оболочки Spark, будь то PySpark или Scala, работают в режиме клиента.И...

flow2k / 05 июля 2019

0 голосов

0 ответов

Как решить проблему слишком большого объема данных в Spark?

Мне нужно прочитать таблицу в базе данных Oracle через панд. При использовании метода topandas() я...

Overday / 05 июля 2019

0 голосов

1 ответ

Получение ошибки в предложении когда / иначе

Я пытаюсь создать новый столбец в кадре данных на основе данных трех других столбцов. Ниже код,...

DJ_NTT / 05 июля 2019

0 голосов

0 ответов

Как я могу запустить эту функцию в pandas_udf

У меня есть самоопределяемая функция Python AutoUnzip, и я хочу запустить ее в pandas_udf и...

LUSAQX / 05 июля 2019

0 голосов

1 ответ

pyspark: разница в производительности для spark.read.format ("csv") и spark.read.csv

Кто-нибудь знает, в чем разница между spark.read.format ("csv") и spark.read.csv? Некоторые говорят...

user1342124 / 05 июля 2019

0 голосов

3 ответов

группировка по значению ключа pyspark

Я пытаюсь сгруппировать значение (ключ, значение) с помощью apache spark (pyspark). Мне удается...

Logan / 05 июля 2019

0 голосов

1 ответ

Разница между «groupby.apply» и «groupby.agg»

Какая разница между 'groupby.apply'and'groupby.agg'? Почему обработанные данные...

mandy / 05 июля 2019

0 голосов

0 ответов

Как я могу объединить два фрейма данных и преобразовать столбцы во вложенный тип данных, содержащий значения из обоих фреймов в pyspark 2.4.3?

Я использую pyspark 2.4.3 с python 2 Как объединить два кадра данных и объединить столбцы, чтобы...

deanw / 05 июля 2019

0 голосов

1 ответ

Выберите самый старый столбец для сгруппированного кадра данных искры

Учитывая фрейм данных (df) со следующими столбцами: id, created_date, name Мне нужно убедиться, что...

Breandán / 05 июля 2019

0 голосов

0 ответов

Внутренние органы исполнителей в Spark?

У меня установлена система зажигания поверх моей HDFS. Допустим, у меня есть файл (содержит 3...

Pratik Garg / 04 июля 2019

0 голосов

0 ответов

Pyspark: применить функцию для сопоставления разделов нескольких фреймов данных

У меня есть два Spark DataFrames с соответствующими парами разделов. Я хотел бы отправить каждую...

David J. Harris / 04 июля 2019

0 голосов

1 ответ

Версия Python отличается по рабочему и водителю

Вопрос, на который я пытаюсь ответить: Создать RDD Используйте карту для создания RDD массивов...

Learning Everyday / 04 июля 2019

0 голосов

1 ответ

столбцы значений сортировка pyspark

daddou06 / 04 июля 2019