Вопросы с тегом pyspark-SQL - PullRequest

Вопросы с тегом pyspark-SQL

0 голосов
0 ответов

У меня есть фрейм данных Pyspark с 1,6 миллионами записей.Я отсортировал его, а затем сгруппировал,...

sammanic / 16 мая 2019
0 голосов
1 ответ

показывает .count (), но неправильно .sum (), что мне делать? код: def meanTemperature(df,spark):...

David Echo / 16 мая 2019
1 голос
1 ответ

В моем фрейме данных есть столбец возраста.Общее количество строк составляет около 77 миллиардов.Я...

Nikita Agarwal / 16 мая 2019
6 голосов
4 ответов

У меня есть: Большой кадр данных (формат паркета, 100 000 000 строк, размер 4,5 ТБ), содержащий...

Ivan Menshikh / 15 мая 2019
0 голосов
0 ответов

У меня есть требование, при котором я должен динамически генерировать несколько столбцов в pyspark....

user11490741 / 15 мая 2019
0 голосов
0 ответов

У меня есть лямбда-функция python, которая запрашивает в sql и сохраняет результат в S3 в виде...

o2887 / 15 мая 2019
0 голосов
1 ответ
0 голосов
1 ответ

У меня есть фрейм данных pyspark, который я хочу записать в s3. Мой фрейм данных выглядит как - id...

Pallavi Verma / 15 мая 2019
0 голосов
2 ответов

Я хочу использовать Spark Session в методе python, но получаю ошибку: «SparkContext можно...

Ayush Sharma / 14 мая 2019
0 голосов
0 ответов

Для универа мне нужно проанализировать список паролей, который выглядит примерно так:...

In0cenT / 13 мая 2019
1 голос
2 ответов

У меня есть фрейм данных PySpark, состоящий из следующих столбцов: id Age 1 30 2 25 3 21 У меня...

John Davis / 13 мая 2019
1 голос
1 ответ

У меня есть df с одним столбцом type, и у меня есть два списка women = ['0980981',...

Mrinal / 13 мая 2019
0 голосов
1 ответ

У меня происходит странная вещь, когда я пытаюсь использовать pyspark dataframe или sql. Хотя он...

maverick / 13 мая 2019
0 голосов
2 ответов

Я новичок в Spark и нуждаюсь в некоторых рекомендациях по приведенной ниже проблеме. Всякий раз,...

ForeverStudent / 11 мая 2019
0 голосов
1 ответ

Я создал PyDpark RDD (преобразованный из XML в CSV), у которого нет заголовков.Мне нужно...

Annabanana / 11 мая 2019
0 голосов
2 ответов

Я пытаюсь преобразовать процесс импутации прямой заливки, основанный на предыдущем сообщении о...

thePurplePython / 10 мая 2019
3 голосов
1 ответ

Рассмотрим следующий фрейм данных pyspark: df = sqlContext.createDataFrame( [ ('2019-05-08...

Sotos / 10 мая 2019
0 голосов
1 ответ

Я работаю с Pyspark, и у меня есть кадр, как это это моя рамка +---+-----+ | id|value| +---+-----+...

user10506353 / 10 мая 2019
0 голосов
1 ответ

У меня есть работа pyspark, берущая данные из базы данных postgresql.Должен ли я использовать схему...

Johan Hansson / 10 мая 2019
0 голосов
1 ответ

Я пытаюсь запустить upsert / delete некоторые значения в исходной таблице базы данных DB2, которая...

Rajashekar Reddy / 09 мая 2019
0 голосов
1 ответ

Я очень, очень плохо знаком с pyspark.Мой фрейм данных выглядит как - id value subject 1 75 eng 1...

Nikita Agarwal / 09 мая 2019
0 голосов
1 ответ

Синтаксис для создания схемы в PySpark. data.csv id,name 1,sam 2,smith val schema = new...

Pluto / 08 мая 2019
0 голосов
1 ответ

Мне нужно подключить RDS Postgre db, который находится за VPC, в частной подсети от Glue.Я не могу...

Umer / 08 мая 2019
0 голосов
0 ответов

В настоящее время я пытаюсь создать оконный раздел в pyspark, который сортируется по четырем...

ImNewToThis / 08 мая 2019
0 голосов
1 ответ

У меня есть датафрейм, где в каждой строке есть два столбца даты.Я хотел бы создать оконную функцию...

LEJ / 07 мая 2019
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...