Вопрос 1. Я работаю над задачей классификации с фреймом данных размером 56 000 записей и 2100...
Позвольте быть работой, которая содержит две фазы, которые (для удобства) не могут быть объединены
После борьбы с зависимостями регистратора я наконец успешно запустил приложение весенней загрузки с...
У меня есть скрипт ниже (я удалил все имена столбцов и т. Д., Чтобы было проще увидеть, что я делаю...
У меня есть класс модели Scala, объект которого я хочу сохранить в таблице Cassandra. Существует...
По умолчанию YARN агрегирует журналы после завершения приложения.Но я пытаюсь объединить журналы...
Я использую Scala для запуска этого проекта , код выглядит следующим образом: package com
У меня есть датафрейм, который выглядит следующим образом: df: col1 col2 a [p1,p2,p3] b [p1,p4]...
У меня есть датафрейм id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13...
У меня есть фрейм данных со столбцом массива. val json = """[ {"id": 1,...
Я новичок в скале.Пожалуйста, наберитесь терпения. У меня есть этот код. import org.apache.spark
Быстрый вопрос, просто пытаясь понять, что именно означает spark.sql.shuffle.partitions?Говорим ли...
Это док-файл искры с centos7.Я искал команду выполнения, которая используется в супервизоре, чтобы...
Я использую Spark 2.3, и меня смущает интеграция Spark SQL и Hive. Spark SQL поддерживает множество...
У меня есть 2 кадра данных: |data | |--------------| |[1,Rob,12] | |[2,Jeremy,11] | |[3,Bart,14] |...
У меня есть фрейм данных следующего формата: name merged key1 (internalKey1, value1) key1...
RDD.sparkContext имеет setJobGroup: myRdd.sparkContext.setJobGroup("standardizationPipeline
В HDFS у меня есть такие каталоги, как этот hdfs: // имя хоста / данные / канал / данные / dt =...
У меня есть набор данных транзакции, который я готовлю к val df = spark.read.parquet(".
Я использую вложенную структуру данных (массив) для хранения многозначных атрибутов для таблицы...
У меня есть следующая схема данных: root |-- firstname: string (nullable = true) |-- lastname:...
Мне нужно отфильтровать только текст, начинающийся с> в столбце. Я знаю, что есть функции setsWith...
Я использую spark 2.2 и пытаюсь прочитать набор данных из файла tsv, как показано ниже в pyspark:...
У меня есть список больших двоичных объектов (wasbs url) в структурированном фрейме потоковых...
Каков максимальный размер spark.broadcast (var), где var - это пустой массив?Я видел это...