У меня есть sql (ниже), где мы должны сравнить некоторые поля в основной таблице с существующей...
Вместо того, чтобы упорядочивать по дням, это упорядочивать по месяцам. Я пробовал str_to_date, но...
Элемент списка Необходимо сравнить два кадра данных и создать третий кадр данных, чтобы...
Я хочу проверить, является ли 'aa' подстрокой какой-либо из строк массива (столбца) строк. Согласно...
Я прочитал CSV-файл в pyspark dataframe. Теперь, если я применяю условия в предложении when(), он...
У меня есть pyspark Dataframe, который содержит много столбцов, в том числе столбец типа Array и...
Я пытаюсь прочитать файл паркета как информационный фрейм, который будет периодически обновляться...
У меня есть спарк-кластер с одним ведущим (имя хоста: masterA) и двумя подчиненными (имена хостов:...
Сложность в том, что я стараюсь избегать UDF как можно больше. У меня есть набор данных "wordsDS",...
Мы подробно обсудили нашу постановку проблемы здесь spark sql: Как добиться параллельной обработки...
Я хочу создать несколько столбцов из одного столбца из Dataframe, используя запятую в Java Spark. У...
Моя схема: StructField[] fields = new StructField[] { DataTypes.createStructField("id",...
Я знаю, что сравнение стратегий объединения - сложная проблема. Но в обычных случаях я могу...
У меня есть фрейм данных pyspark с 2 столбцами (Violation_Time, Time_First_Observed), которые...
У меня есть CSV, для которого мне нужно создать df, который имеет столбец ArrayType, проблема в том...
Я только начал изучать Scala для моего официального проекта. Я не смог решить следующий вариант...
Я знаю, что мы могли бы явно ANALYZE таблицу в Spark SQL, чтобы мы могли получить некоторую точную...
Я пытаюсь передать большой (~ 30 ГБ) фрейм данных в pandas_udf в spark следующим образом: @f
Базовый источник данных хранится в формате Parquet и предоставляется через Hive. Можно ли...
Обновленный вопрос Что мне непонятно => в ShuffleMapStage каждый Mapper создаст .data и .index file...
Подскажите, пожалуйста, как правильно завершить скрипт pyspark. В настоящее время у меня есть...
Я загрузил CSV-файл. Повторно разделил его на 4, а затем принял к сведению DataFrame. И когда я...
Возьмем, например, контейнер S3 следующей структуры: s3://francesco-totti/day/hour/min/*.json.lzo...
Я запускаю свое искро-задание, используя файл сценария spark-sbumit, как показано ниже export...
Я новичок в Spark, пытаюсь использовать его так же, как я использовал Pandas для анализа данных. В...