Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
2 ответов

У меня есть фрейм данных PySpark, и для каждой (партии) записи я хочу вызвать API.В общем, скажем,...

Jiew Meng / 04 мая 2019
0 голосов
1 ответ

У меня огромный массив данных, содержащий миллионы строк.Из этих строк я получаю новые k кадры...

praateek / 04 мая 2019
0 голосов
0 ответов

Я работаю над тем, чтобы сохранить свою модель после конвейера в pyspark 2.4, чтобы позже я смог...

mochimaster / 03 мая 2019
0 голосов
0 ответов

У меня есть датафрейм с вложенной структурой, так что я точно знаю, что это structType, однако,...

iratelilkid / 03 мая 2019
0 голосов
1 ответ

Я пытаюсь использовать модуль boto3 в PySpark (задание AWS Glue ETL) для загрузки фрейма данных в...

user1983682 / 03 мая 2019
1 голос
0 ответов

В моем коде pyspark (v2.4) я присоединяюсь к двум фреймам данных: один очень большой, другой...

Go Erlangen / 03 мая 2019
3 голосов
1 ответ

Учитывая, что документация pySpark для SQLContext говорит: «Начиная с Spark 2.0, это заменяется...

Clay / 03 мая 2019
0 голосов
1 ответ

В pyspark вызов метода Java sparkContext getPersistentRDDs() возвращает экземпляр JavaObject scala

Clay / 03 мая 2019
0 голосов
1 ответ

В pyspark sparkSession, с sc в качестве моего sparkContext, вызывая getRDDStorageInfo() Java...

Clay / 03 мая 2019
1 голос
0 ответов

Я использую foreachBatch в структурированной потоковой передаче pyspark, чтобы записывать каждую...

nstudenski / 03 мая 2019
0 голосов
0 ответов

Я планирую запускать свои задания Spark SQL на EMR AWS и планирую использовать AWS Glue Metastore...

user554481 / 03 мая 2019
1 голос
1 ответ

Я получаю сообщения json из потока kafka. Я хочу создать основанное на этом окне время и принять...

abdellah elazzam / 03 мая 2019
0 голосов
0 ответов

Мы запускаем pyspark в кластере EMR и имеем ~ 50 миллионов записей в кадре данных.Каждому требуется...

kylerm42 / 03 мая 2019
1 голос
1 ответ

Я преобразовываю устаревший код Redshift SQL моей команды в код Spark SQL.Все примеры Spark,...

user554481 / 03 мая 2019
0 голосов
0 ответов

Проблема при чтении таблицы улья, в которой есть столбец с фильтром Блума. Таблица в формате ORC ....

Govind Verma / 03 мая 2019
0 голосов
1 ответ

В Pyspark у меня загружен большой набор данных, который я запускаю через свой GBMClassifier.Перед...

CattMooper / 03 мая 2019
1 голос
2 ответов

Когда я создаю сеанс искры, он выдает ошибку Невозможно создать сеанс зажигания Используя pyspark,...

hitesh_hk / 03 мая 2019
1 голос
0 ответов

Я построил модель логистической регрессии, используя конвейерный поток к той, которая указана в...

Fady Nabil / 03 мая 2019
0 голосов
1 ответ

Мои данные находятся в фрейме данных pyspark ('pyspark.sql.dataframe.DataFrame').В одном из...

Harvey / 03 мая 2019
0 голосов
2 ответов

Вот мой фрейм данных: FlightDate=[20,40,51,50,60,15,17,37,36,50] IssuingDate=[10,15,44,45,55,10,2...

plalanne / 03 мая 2019
0 голосов
2 ответов

Мне нужно сместить столбцы влево на основе другого столбца в кадре данных.Обратите внимание, что я...

VivekDoudagiri / 03 мая 2019
0 голосов
1 ответ

Я использую pyspark для преобразования данных.Ниже приведен кадр данных, который содержит несколько...

Nabarun Chakraborti / 03 мая 2019
0 голосов
2 ответов

Я пытаюсь создать некоторый накопительный продукт в следующем фрейме данных ||b | 1 1 1 2 1 3 1 4 Я...

PRAKASH NAYAK / 03 мая 2019
1 голос
0 ответов

Исключение при запуске кода Python в Windows 10. Я использую Apache Kafka и PySpark. Фрагмент кода...

sramu / 03 мая 2019
1 голос
3 ответов

У меня есть датафрейм, и мне нужно посмотреть, содержит ли он нулевые значения.Есть много постов на...

Clock Slave / 03 мая 2019
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...