Я хочу использовать GlueMetaStore с spark.sql. Для этого я настроил кластер EMR (5.16) и установил...
Я определил функцию в PySpark, которая - def add_ids(X): schema_new = X.schema
Учитывая набор данных, как вы видите в приведенном ниже коде (df), я должен иметь возможность...
Я хочу сравнивать Prev.data с текущими данными по месяцам.У меня есть данные, как показано ниже....
Spark версия: 2.2.0.cloudera2 Обычно мы регистрируем временную таблицу следующим образом: dataframe
Мы запускаем приложение Spark в кластере Amazon EMR. Наш код принимает данные JSON, преобразует их...
У меня есть потоковое потоковое приложение, которое читает данные из Kafka и записывает их в базу...
У меня есть следующий DataFrame df в PySpark. import pyspark.sql.functions as func df = spark\
У меня есть JSON, как показано ниже { "student": { "names": ["aaaa"...
У меня есть файл данных в формате json, одно из его полей существует в виде строки, а также типа...
Я запускаю ниже искровой SQL-запрос в Intellij Maven IDE, SELECT seq_no, amount, (select max(b
Я пытаюсь получить данные из базы данных Oracle и поместить их в AWS S3 , используя Apache Spark 2
Недавно я разработал приложение Spark Streaming с использованием Scala и Spark. В этом приложении я...
Я использую Spark 2.3.0 и у меня есть два фрейма данных. Первый, df1, имеет схему: root |-- time:...
В настоящее время я пытаюсь выяснить, как передать аргумент формата String в функцию pyspark...
это мой простой код. spark.sql("select * from default.some_table") при использовании...
У меня есть набор данных журнала событий, например: | patient | timestamp | event_st | extra_info |...
У меня есть DataFrame, у которого есть столбец id, который используется для соединения с другими...
Моя функция get_data возвращает кортеж: два целых значения. get_data_udf = udf(lambda id:...
У меня следующая ситуация: У меня есть датафрейм с массивом в качестве схемы. Теперь я хочу...
Вот последняя схема, которую я пытаюсь достичь с помощью Spark SQL |-- references: array (nullable...
Мне нужно преобразовать DataFrame, в котором один из столбцов состоит из списка кортежей, каждый...
Я хочу запустить recoverPartitions для таблиц, которые могут иметь или не иметь разделы. Прямо...
Например, у меня есть такой набор данных test = spark.createDataFrame([ (0, 1, 5,...
У меня есть датафрейм с 3 столбцами - число (целое число), имя (строка), цвет (строка). Ниже...