Я использую spark-sql 2.4.1, spark-cassandra-connector_2.11-2.4.1.jar и java8. У меня есть сценарий...
Я извлек некоторые данные из улья в датафрейм в указанном ниже формате. | NUM_ID| SIG1| SIG2| SIG3|...
Функция withColumn может использоваться для замены одного столбца за раз. Мне нужно заменить два...
Итак, я читаю данные из файла. Что-то вроде data = spark.read.format('orc')
У меня есть искровой фрейм данных с несколькими столбцами как ноль. Мне нужно создать новый фрейм...
У меня есть требование упорядочить значение столбца и сгруппировать другой столбец в кадре данных....
У меня есть два фрейма данных, я хочу обновить все значения DF2 в DF1 на основе сопоставленного...
Я читаю из потоковых данных (значения, разделенные запятыми), используя KafkaUtils
Из краткого тестирования выяснилось, что функция удаления столбцов для фреймов данных pyspark не...
Используя Spark Java, я пытаюсь прочитать данные с разделенными запятыми значениями в форме JavaRDD...
Я тестирую этот кусок кода. dbutils.fs.ls("/mnt/rawdata/2019/01/01/corp/") Это прекрасно...
Я пытаюсь преобразовать существующий набор данных со схемой, приведенной ниже, в новую схему,...
Я пытался получить строку из набора данных и смог получить строку из набора данных, но всякий раз,...
Я использовал 20 миллионов наборов данных Movielens, которые содержат файл с именем rating .csv...
У меня есть запрос, в котором я объединяю месяц и год и сохраняю его как MY, который преобразует...
Я пытаюсь преобразовать следующую метку времени в ближайшую 10-ую минуту в spark-sql Например: *...
Я новичок в Spark и пытаюсь найти список с возможными ключом / значениями для ".option", когда я...
Я очень новичок в Spark и Hadoop. Получил эту ошибку для кода Python. Пытаюсь понять. Хотите знать,...
У меня есть требование применить некоторую логику к разным строкам кадра данных и создать новый...
У меня есть искровой фрейм данных с несколькими столбцами, и каждый столбец содержит строку....
Я пытаюсь прочитать файл avro с помощью DataFrame, но продолжаю получать: org.apache.spark.sql.avro
Для данного набора данных (originalData) мне необходимо отобразить значения, а затем подготовить...
Я пытаюсь получить список метода spark, он не относится ни к преобразованию, ни к действию....
Я имел в виду этот вопрос Здесь , однако он работает для collect_list, а не collect_set У меня есть...
Я хочу разбить файл по первому символу строки в Pyspark DataFrame. Исходные данные имеют столбец,...