Я новичок в Python, поэтому извиняюсь, если в моем подходе есть какая-то ошибка У меня есть...
Попытка сделать простое преобразование с использованием unix_timestamp ведет себя иначе, чем Spark...
Когда я делаю ниже, он работает нормально company_info_df.select(col("value"))
Я читаю паркет с: df = spark.read.parquet(file_name) И получите столбцы с: df.columns И возвращает...
Я пытаюсь создать новый столбец в фрейме данных pyspark, который основан на содержимом другого...
Ошибка при попытке получить значение из DataFrame Я использую pyspark в Databricks, я пытаюсь...
Впервые в Scala. Я создал функцию подстроки в scala, которая требует "pos" и "len", я хочу, чтобы...
У меня есть таблица сотрудников с несколькими записями, как показано ниже: +---+----+-------+ | Id...
У меня есть данные в CSV, как показано ниже, первая строка пуста, а вторая строка заполнена только...
У меня есть конечная точка API, написанная sparksql со следующим примером кода. Каждый раз, когда...
У меня есть данные транзакции, но мне нужно рассчитать количество посещений на основе countDistinct...
Простое val postsAndUsers = posts.join(users, $"_OwnerUserId" === users("_Id"),...
Похоже, что между искрой 2.2.1 и искрой 2.4.0 поведение левого соединения с пустым правым фреймом...
Я пытаюсь записать свой фрейм данных в таблицу разделов кустов. Формат таблицы кустов - паркет. Но...
У меня есть набор данных, в который данные добавляются почти каждый день, и его необходимо...
У меня есть фрейм данных, в котором мне нужно сравнить несколько значений и вывести некоторые из...
Я пытаюсь запустить спарк с подключением Hive JDBC и получаю исключение нулевого указателя.Та же...
У меня есть искровой фрейм с некоторыми значениями null в столбце. Мне нужно сосчитать смежные null...
Я новичок в искре. Я пишу код pyspark, где у меня есть два кадра данных, таких как: DATAFRAME-1:...
Я использую onStageCompleted из SparkListener, пытаясь извлечь некоторые полезные данные из...
Я пытаюсь улучшить производительность моего приложения Spark. С этой целью я пытаюсь определить...
Я использовал show partitions в spark sql, что дает мне следующее: year=2019/month=1/day=21...
У меня есть DataFrame со столбцом id.Я хотел бы сделать некоторые вычисления для строк для каждого...
Я работаю над экспериментом, который оценивает производительность выполнения разных запросов...
Мне нужно разбить следующее на несколько токенов в кадре данных Spark Scala. Я не использовал...