Вопросы с тегом pyspark-dataframes

1 голос

0 ответов

Pyspark Shuffle Написать размер

Я читаю данные из двух источников на этапах 2 и 3. Как вы можете видеть, на этапе 2 размер входного...

Y.Su / 24 сентября 2019

0 голосов

2 ответов

сгруппировать независимо по нескольким столбцам

У меня есть датафрейм, в котором у меня есть 2 столбца. dataframe 1:- product | act a | A b | B c |...

vishwajeet Mane / 24 сентября 2019

1 голос

2 ответов

Ошибка ParseException при использовании Regex в pyspark 2.4

Я пытаюсь получить только те строки, в которых colADD содержит не буквенно-цифровой символ. Код:...

Sophie Dinka / 24 сентября 2019

0 голосов

1 ответ

Конвертировать фрейм данных pyspark в динамический фрейм

У меня есть фрейм данных pyspark.Мне удалось преобразовать динамический фрейм данных в спарк фрейм...

user-2147482338 / 24 сентября 2019

0 голосов

0 ответов

java.lang.ArrayIndexOutOfBoundsException при вставке данных в существующую таблицу разделов куста

Я пытаюсь вставить данные в существующую таблицу разделов, создав фрейм данных в PySpark. Я получаю...

user_Pri / 23 сентября 2019

0 голосов

1 ответ

Переберите два кадра данных, сравните и измените значение в pandas или pyspark

Я пытаюсь выполнить упражнение в пандах. У меня есть два кадра данных.Мне нужно сравнить несколько...

DroppingOff / 23 сентября 2019

0 голосов

1 ответ

Дублирующиеся записи перемещаются в другую временную таблицу в pyspark

Я использую Pyspark Мои входные данные выглядят следующим образом. COL1|COL2 |TYCO|130003| |EMC...

Sophie Dinka / 23 сентября 2019

0 голосов

0 ответов

Pyspark.sql regexp_extract не возвращает полную группу

У меня есть фрейм данных со столбцом со строками, чьи подстроки разделены фиксированным...

Trademark / 23 сентября 2019

0 голосов

0 ответов

Как я могу оптимизировать код, просто прочитав таблицы один раз в следующем коде PySpark?

У меня есть фрейм данных PySpark (D1) с 30+ миллионами строк, который выглядит следующим образом:...

yguw / 23 сентября 2019

3 голосов

2 ответов

Как определить, следует ли преобразовывать десятичные столбцы в целые или двойные?

Я использую Apache spark в качестве инструмента ETL для извлечения таблиц из Oracle в Elasticsearch...

nimeresam / 22 сентября 2019

0 голосов

0 ответов

в каком случае shuffle pyspark (mapreduce?) не хорошо?

Как и в MapReduce, хеш-соединение Shuffle работает лучше всего, когда данные не перекошены и...

dailygirlflower / 22 сентября 2019

0 голосов

1 ответ

Хранение значений кратных столбцов в фрейме данных pyspark под новым столбцом

Я импортирую данные из файла csv, в котором есть столбцы Reading1 и Reading2, и сохраняю их в...

Saikat / 22 сентября 2019

1 голос

0 ответов

какова сложность Shuffled HashJoin по умолчанию?

когда df1 и df2 имеют одинаковое количество столбцовкакова сложность Shuffled HashJoin по умолчанию

moon ryu / 21 сентября 2019

0 голосов

0 ответов

pyspark один ко многим присоединиться к операции

в фрейме pysparkдопустим, что есть dfA и dfB, dfA : name , class dfB : class, time , если dfA

dailygirlflower / 20 сентября 2019

0 голосов

1 ответ

Операция искрового соединения для двух фреймов данных

когда df1 и df2 имеют одинаковые строки иdf1 и df2 не имеют дублированного значенияКакова сложность...

dailygirlflower / 20 сентября 2019

0 голосов

1 ответ

Чтение содержимого из файлов, находящихся в Zip-файле, с использованием Scala / pysprak, а также из блоков данных и файлов, хранящихся в ADLS

У меня есть Zip-файл 1,3 ГБ и внутри него TXT-файл с разделенным запятыми форматом, который имеет 6...

Yogesh Kulkarni / 19 сентября 2019