Вопросы с тегом pyspark

0 голосов

1 ответ

Операция искрового соединения для двух фреймов данных

когда df1 и df2 имеют одинаковые строки иdf1 и df2 не имеют дублированного значенияКакова сложность...

dailygirlflower / 20 сентября 2019

1 голос

1 ответ

что мы будем использовать для pyspark для создания проектов?

Хотелось бы знать, что аналогично SBT или MAVEN для SCALA, что мы будем использовать для pyspark...

Sri_Karthik / 20 сентября 2019

1 голос

0 ответов

разбить и записать фрейм данных двумя функциями столбца с отображением выходных данных в указанную структуру каталогов

Если у меня есть фрейм данных с полем tm типа timestamp, скажем, он охватывает несколько дней,...

MrCartoonology / 20 сентября 2019

0 голосов

2 ответов

PySpark: как группировать с помощью или в столбцах

Я хочу сгруппировать в PySpark, но значение может отображаться более чем в столбцах, поэтому, если...

André Segadas Figueiredo / 20 сентября 2019

1 голос

0 ответов

ModuleNotFoundError: Ошибка модуля с именем 'conda' при вводе источника ~ / .bashrc

Я добавил следующие вещи в ./bashrc export JAVA_HOME = $ (/ usr / libexec / java_home -v 1.8)...

dailygirlflower / 20 сентября 2019

1 голос

0 ответов

Spark читает CSV, содержащий наносекундные метки времени

Я выгружаю таблицу Postgres с помощью команды копирования, выводимой в CSV. CSV содержит метки...

JW2 / 20 сентября 2019

0 голосов

1 ответ

Как я узнаю, в какой части кода зависает искровой процесс?

У меня есть процесс Spark, который зависает - казалось бы, навсегда - на данном этапе: [Stage...

pfnuesel / 20 сентября 2019

1 голос

1 ответ

Выделить Select (). Количество () является фреймом данных pyspark?

Я видел df.select(“name”).distinct().count() <br/> это фрейм данных pyspark?или фрейм данных...

dailygirlflower / 20 сентября 2019

0 голосов

1 ответ

PySpark сворачивает информационный фрейм

У меня есть следующий фрейм данных - >>> my_df.show(3)...

kev / 20 сентября 2019

0 голосов

0 ответов

Как создать новый столбец с плотными векторами в таблице Pyspark с помощью UDF Pandas?

Моя таблица хранится в pyspark в блоках данных.Таблица имеет два столбца id и text.Я пытаюсь...

HHKSHD_HH / 20 сентября 2019

0 голосов

1 ответ

Распараллелить функцию сбора искр

Я заметил, что функция spark, collect, чрезвычайно медленная на больших наборах данных, поэтому я...

ChaseHardin / 19 сентября 2019

0 голосов

1 ответ

Как создать расслоенный обучающий набор, валидацию и тестовый набор на pyspark?

У меня есть небольшой набор данных (140 КБ), который я хотел бы разделить на набор валидации, набор...

Jay Gondin / 19 сентября 2019

1 голос

1 ответ

Spark отказывается создавать пустой фрейм данных при использовании pyarrow

Я хочу создать пустой фрейм данных из существующего фрейма данных spark.Я использую поддержку...

Radhwane Chebaane / 19 сентября 2019

0 голосов

2 ответов

Синхронизируйте CSV-файлы из Динамического пути в Glue Catalog и Glue Py Spark Script

Я хранил файлы CSV в AWS s3 ежедневно.Ниже приведена структура пути моего файла S3:...

Md Sirajus Salayhin / 19 сентября 2019

0 голосов

0 ответов

Размеры паркета Pyspark резко отличаются

Я использую pyspark для ежедневной обработки фиксированного набора записей данных и сохраняю их в...

Y.Su / 19 сентября 2019

1 голос

3 ответов

Эквивалент PySpark для лямбда-функции в UDF Pandas

Я написал коды предварительной обработки данных в Pandas UDF в PySpark.Я использую лямбда-функцию,...

K. K. / 19 сентября 2019

9 голосов

3 ответов

Невозможно подключиться кasticsearch из pyspark, но может сделать это из Hive

Я использую приведенный ниже фрагмент для подключения и загрузки данных из Hive вasticsearch (v 6

RAVITEJA SATYAVADA / 19 сентября 2019

0 голосов

0 ответов

Pyspark: получение функций для кластеризации из списка

У меня нет большого опыта работы со спарком, и у меня есть некоторые проблемы с анализом данных,...

Luca Erreciesse / 19 сентября 2019

2 голосов

0 ответов

Запись фрейма данных Pyspark в sql производительность сервера

Я пытаюсь экспортировать таблицу кустов на сервер sql, используя pyspark.Пожалуйста, смотрите ниже...

Tharunkumar Reddy / 19 сентября 2019

0 голосов

1 ответ

Как получить конкретные данные из динамической рамки AWS Glue

Я хочу получить конкретные данные внутри DynamicFrame. Поэтому я использую консоль AWS Glue и у...

Corvoloso / 19 сентября 2019

0 голосов

2 ответов

Массив строк Pyspark с динамической длиной в столбце данных в единичном кодировании

Я хотел бы преобразовать столбец, который содержит строки, такие как: ["ABC"...

Laokoon / 19 сентября 2019

1 голос

1 ответ

Примерный фрейм данных Pyspark по группам

У меня есть кадр данных, имеющий следующую структуру...

Clock Slave / 19 сентября 2019

0 голосов

1 ответ

Проверка схемы столбца с помощью StructType в Pyspark 2.4

У меня есть фрейм данных, в котором есть столбец, представляющий собой строку JSON from pyspark.sql...

Jon.H / 19 сентября 2019

0 голосов

1 ответ

lowerByKey с несколькими значениями

Каждое значение в моем rdd является кортежем: temp = clustering.map(lambda x: (x[0][0], (1,1)))...

Shane / 19 сентября 2019

0 голосов

1 ответ

Преобразование строк тегов в двоичный векторный pyspark

У меня есть данные, которые выглядят так: | Id | ----Tags---- | some_text | | 0 |...

Gopal Vashishtha / 19 сентября 2019