Вопросы с тегом pyspark

0 голосов

0 ответов

PySpark Dataframe Возвращает ноль для каждой строки при указании схемы

Я использую Spark 2.2 в кластере hadoop 2.6.3. У меня есть сотни CSV-файлов, которые мне нужно...

Badr Ftillou / 01 ноября 2019

0 голосов

0 ответов

как сделать инкрементную обработку данных в pyspark вместе со структурированной потоковой передачей искры или с pentaho и mongodb

У меня очень большие данные в MongoDB, которые растут день ото дня, поэтому я не могу обрабатывать...

Nithin / 01 ноября 2019

0 голосов

1 ответ

Повторите элементы массива k раз в pyspark

Пример данных DF со столбцом массива: +--------------------+ | COL1 | +--------------------+ |[A, B...

dev ツ / 01 ноября 2019

0 голосов

0 ответов

Ошибка при попытке сохранить фреймы данных pyspark в mongoDB

F=df0.join(df1, on="num", how="inner")\ .join(df2, on="num",...

Houssem BZYWISH / 01 ноября 2019

0 голосов

0 ответов

Pyspark разделение никто

Window.partitionBy('OBJVERSION') выполняется динамически в моем коде pyspark. Есть...

Aditya / 01 ноября 2019

0 голосов

1 ответ

Фильтрация данных среди нескольких элементов типа массива

Схема данных: root |-- ID: decimal(15,0) (nullable = true) |-- COL1: array (nullable = true) | |--...

dev ツ / 01 ноября 2019

0 голосов

1 ответ

Как я могу запланировать скрипт pyspark на почасовой основе в среде Linux

У меня есть один сценарий pyspark, и я хочу, чтобы этот сценарий выполнялся ежечасно, то есть после...

Rahul Vishwakarma / 01 ноября 2019

0 голосов

0 ответов

Запуск сценария искры с использованием таблицы

Мы пытаемся создать такой инструмент, чтобы с помощью таблиц мы могли запустить сценарий pyspark в...

Dan / 01 ноября 2019

0 голосов

0 ответов

Получение нулевого значения при попытке изменить тип данных в pyspark

У меня есть набор данных C1.txt, в котором есть один столбец с именем features. Все строки являются...

Mhasa87 / 01 ноября 2019

0 голосов

1 ответ

Выражение SQL Pyspark против when () в качестве оператора case

Я создаю поле с именем v1 в предыдущем запросе. Затем я пытаюсь создать новое производное поле из...

B_Miner / 01 ноября 2019

0 голосов

1 ответ

Как преобразовать строковый элемент в числовой в RDD

Я хочу преобразовать строковые элементы в следующем СДР data0 = sc.parallelize( [('0',...

Samson / 01 ноября 2019

0 голосов

2 ответов

Подход к очистке данных в искре

Я совершенно новый студент в области инженерии данных / машинного обучения и самостоятельного...

Sachin Sharma / 01 ноября 2019

0 голосов

1 ответ

Spark как часть большого скрипта Python

Я привык выполнять сценарии spark python в кластере cloudera, где я использовал команды pyspark или...

user2109179 / 31 октября 2019

0 голосов

0 ответов

Частичное нечеткое сопоставление в больших данных на основе нескольких столбцов

У меня есть два файла .csv. Файл 1: D,FNAME,MNAME,LNAME,GENDER,DOB,snapshot 2,66M,J,Rock,F,1995...

Samson / 31 октября 2019

0 голосов

0 ответов

Создание предварительно назначенного S3 URL с использованием pyspark

У меня есть назначение, чтобы сделать данные доступными, используя предварительно назначенный...

Hussain Bohra / 31 октября 2019

0 голосов

0 ответов

Как сделать json.loads с пользовательским разделителем в python?

TLDR: Как я могу загрузить json.load с пользовательским разделителем, не заменяя разделитель...

JohnSnowTheDeveloper / 31 октября 2019

0 голосов

1 ответ

Как перемотать закладку Job Job Glue Spark ETL?

Я прочитал здесь , что теперь Glue предоставляет возможность перематывать закладки работы для...

Diba / 31 октября 2019

0 голосов

0 ответов

если еще с и оператор в pyspark для сравнения двух столбцов dataframe

Я пытаюсь compare two columns кадра данных, но это приводит к ошибке. Код PFB: if((df3.name==df3

RushHour / 31 октября 2019

0 голосов

1 ответ

Соедините GCP (большой запрос) с PySpark без использования Dataproc

Я пытаюсь подключить GCP (Google Big Query) к Spark (используя pyspark) без использования Dataproc...

Kalvin Tan / 31 октября 2019

0 голосов

1 ответ

Как читать метаданные из файла avro в Scala

Я хочу прочитать схему avro из метаданных файла avro в scala. Я могу сделать это Python, но я не...

Nafis Aslam / 31 октября 2019

0 голосов

2 ответов

Склеить Job, чтобы объединить датафреймы с помощью pyspark?

Я в основном пытаюсь обновить / добавить строки из одного DF в другой. Вот мой код: # S3 import...

CodeDoge / 31 октября 2019

2 голосов

1 ответ

Сценарий Python Pyspark не выполняется для всего набора данных, но работает с одним файлом

Я написал скрипт pyspark для Python, который извлекает из данных определенные функции. скрипт...

Houssem BZYWISH / 31 октября 2019

0 голосов

2 ответов

Kafka: преобразование Scala в Python

Ссылка на: https://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration

user3782604 / 31 октября 2019

0 голосов

0 ответов

Как связать pyspark с Drools?

Я хочу соединить Drools с pyspark, чтобы создать SQL-запрос для применения бизнес-правил к фрейму...

Giridhar / 31 октября 2019

0 голосов

1 ответ

как сделать множественные array_union и array_intersection в pyspark

Допустим, у меня есть фрейм данных pyspark, содержащий следующие столбцы: c1, c2, c3, c4 и c5 типа...

yguw / 31 октября 2019