Вопросы с тегом pyspark

0 голосов

1 ответ

Невозможно сохранить модель pyspark iforest с помощью pyspark

Использование iforest, как описано здесь: https://github.com/titicaca/spark-iforest Но model.save...

Sandie / 27 июня 2019

0 голосов

0 ответов

выберите и вычислите новый столбец в pyspark для плагина данных

У меня есть искровой фрейм с этим форматом: opp_id__reference|oplin_status| stage| std_amount|...

Poisson / 27 июня 2019

0 голосов

1 ответ

Outlook преобразование электронной почты в формат файла json с использованием pyspark

У меня есть около 1 lac outlook электронных писем, и я хочу преобразовать их в формат json,...

Amanpreet Khurana / 27 июня 2019

0 голосов

1 ответ

Динамически создавайте внешнюю таблицу Hive с помощью sqlcontext.sql (...)

У меня есть сценарий pyspark в записной книжке Zeppelin, который я указываю на файл JSON,...

Nibroc A Rehpotsirhc / 27 июня 2019

0 голосов

1 ответ

Как извлечь имя CSV из фрейма искры

Нашей настройкой является PySpark.Предположим, я создаю фрейм данных df с помощью функции spark

WorkBench / 27 июня 2019

0 голосов

0 ответов

Генерация случайной даты для заполнения значений NULL в фрейме данных Pyspark

У меня есть фрейм данных pyspark с некоторыми значениями NULL, и я хочу заменить их случайной датой...

ren1199 / 27 июня 2019

0 голосов

0 ответов

Как решить «Исключение: процесс шлюза Java завершился до отправки номера порта»?

Я пытаюсь запустить pyspark в блокноте jupyter. Но всякий раз, когда я запускаю код, появляется...

Windy Aulia R. / 27 июня 2019

0 голосов

0 ответов

ПРЕДУПРЕЖДЕНИЕ BlockManagerMasterEndpoint: больше нет доступных реплик для rdd

Я вижу следующие типы сообщений при кэшировании больших фреймов данных в pyspark с помощью YARN: -...

DinoG / 27 июня 2019

0 голосов

1 ответ

псевдоним для счета в Pyspark

Я новичок в Pyspark. Я пытаюсь использовать псевдоним для функции подсчета. По какой-то причине,...

Ankan / 27 июня 2019

1 голос

1 ответ

Сохранение Pyspark не работает при вызове изнутри foreach

Я строю конвейер, который получает сообщения из Azure EventHub и сохраняет их в дельта-таблицах...

Flavio Pegas / 27 июня 2019

1 голос

0 ответов

как обрабатывать RDD без итераций в pyspark

У меня есть RDD, который я читаю из файла с текущим форматом 199.72.81.55 - - [01 / Jul / 1995: 00:...

Raul Quinzani / 27 июня 2019

0 голосов

1 ответ

Переупорядочить исходные столбцы данных Spark в соответствии с порядком целевого кадра данных в PySpark

У меня фиксированный порядок Spark DataFrame из целевой таблицы: Целевой кадр данных Spark (строка...

user2717470 / 27 июня 2019

0 голосов

2 ответов

Автономный планировщик apache spark - зачем драйверу все ядро в режиме «кластера»?

В режиме развертывания клиента «spark» драйвер spark не использует ядра, а только приложения spark....

tooptoop4 / 27 июня 2019

0 голосов

0 ответов

имя столбца в качестве данных для другого столбца в том же кадре данных

Существует фрейм данных, который состоит из 3 столбцов. +-----+----+-------+ | name| id |Subject|...

sri / 27 июня 2019

0 голосов

0 ответов

Управление сетевым трафиком работает pyspark в локальном режиме?

Я запускаю процедуру предварительной обработки с помощью pyspark в локальном режиме на 12-ядерном...

Dae Hyun Lee / 27 июня 2019

1 голос

1 ответ

unixtime to datetime в pyspark

Я пытаюсь преобразовать unix_time в формат даты и времени в pyspark (блоки данных). пример данных...

Ankan / 26 июня 2019

0 голосов

1 ответ

Создание таблицы сложного Pyspark с использованием Array, Pivot

У меня есть таблица в следующем формате +-------+--------+ |Column1|Column2 | +-------+--------+...

Vincent / 26 июня 2019

0 голосов

1 ответ

Можно ли использовать AWS Glue Connection для создания источника данных?

Я пытаюсь получить доступ к базе данных в частной подсети в скрипте задания AWS Glue. Как видно из...

Rax Wunter / 26 июня 2019

0 голосов

0 ответов

присвоить значение в кадре данных искры

У меня есть искровой фрейм данных:...

Poisson / 26 июня 2019

0 голосов

1 ответ

Фильтр Pyspark с колонкой из другого кадра данных

Я бы хотел отфильтровать Id от цены, если таковой существует в фрейме данных событий. Мой код ниже,...

melik / 26 июня 2019

0 голосов

0 ответов

Код Панды в PySpark с групповыми операциями

В пандах мне удалось преобразовать следующее, что в основном делит первое ненулевое значение на...

Waroulolz / 26 июня 2019

0 голосов

0 ответов

Создание функции HDBSCAN на pyspark

Я хотел бы выполнить модель HDBSCAN в виде свободной текстовой переменной из набора данных, а затем...

MVachelard / 26 июня 2019

0 голосов

1 ответ

Как поместить переменную в pyspark groupby agg запрос

Привет У меня есть запрос, в котором я хочу поместить переменные данные в группу по запросу i...

sanchit / 26 июня 2019

0 голосов

2 ответов

Apache Spark: ядра против исполнителей

Вопросы, связанные с ядрами и исполнителями, задаются несколько раз в SO. Apache Spark: количество...

user805 / 26 июня 2019

0 голосов

1 ответ

Как исправить функции TF.IDF на pyspark?

Я пытаюсь разработать процесс TF.IDF для pyspark с помощью MapReduce (платформа - Databricks)

Liri Rozenthal / 26 июня 2019