Вопросы с тегом искровой dataframe

0 голосов

1 ответ

Добавление предыдущей строки с текущей строкой с помощью функции Window

У меня есть искровой фрейм данных, в котором я хочу вычислить промежуточный итог на основе текущего...

Masterbuilder / 03 мая 2018

0 голосов

0 ответов

Проблемы с производительностью при записи данных в снежинку с помощью spark df

Я пытаюсь прочитать данные из системы AWS RDS и записать их в Snowflake с помощью SPARK. Мое...

BlackJack / 03 мая 2018

0 голосов

1 ответ

Используя DataFrame и метод where (), который выбирает строки, где A больше 5 или B больше 5

Учитывая Spark DataFrame в переменной t, представляющей таблицу с двумя целочисленными столбцами (A...

rupesh / 02 мая 2018

0 голосов

1 ответ

Как создать фрейм данных на основе значения даты, переданного в виде строки в pyspark?

У меня есть набор данных, как показано ниже: файл: test.txt 149|898|20180405 135|379|20180428...

Sai / 02 мая 2018

0 голосов

1 ответ

Как оцениваются преобразования pyspark в одном методе?

Я пытаюсь организовать пару преобразований данных, которые выполняются в pyspark. У меня есть код,...

Daniel R / 02 мая 2018

0 голосов

1 ответ

Как выполнить проверку на уровне столбца, присоединив один большой фрейм данных ко многим небольшим фреймам данных в искре

У меня есть одна большая таблица или фрейм данных, который содержит более 50 миллионов записей и...

Shailendra / 02 мая 2018

0 голосов

1 ответ

Невозможно выбрать более 255 столбцов в Pyspark DataFrame

Я пытаюсь выбрать 500 столбцов в DysFrame Pyspark. Получение ошибки как «SyntaxError: более 255...

Atanu chatterjee / 02 мая 2018

0 голосов

0 ответов

Сбой программы Pyspark в теле функции

Я новичок в реализации PySpark алгоритмов ML. Я пытаюсь создать модель классификации, которая может...

SunDante / 02 мая 2018

0 голосов

1 ответ

Apache Spark подсчитывает количество событий в сегментах временных меток

Я загрузил свои данные в фрейм данных Spark и использую Spark SQL для дальнейшей обработки. Мой...

Rafael / 02 мая 2018

0 голосов

1 ответ

Различная сумма между столбцом dataframe и его массивом в искровой скале

Фрейм данных имеет только один столбец «возраст» и содержит 140 миллионов строк. Например, df

gary yong / 02 мая 2018

0 голосов

1 ответ

Фильтровать строки данных для ключей типа карты

У меня есть DataFrame со столбцом MapType, и я хочу отфильтровать строки, которые не содержат...

Hugo / 02 мая 2018

0 голосов

2 ответов

Spark SQL - кодеры для кортежа, содержащие список или массив в качестве элемента

Использование Spark 2.2 + Java 1.8 У меня есть два пользовательских типа данных "Foo" и "Bar"....

HansGruber / 02 мая 2018

0 голосов

1 ответ

проверить наличие дубликатов в Pyspark Dataframe

Есть ли простой и эффективный способ проверить фрейм данных Python только на наличие дубликатов (не...

Prasanna Saraswathi Krishnan / 01 мая 2018

0 голосов

0 ответов

Как я могу избежать тасования в следующем фрейме данных sparkSQL?

Должен ли я использовать постоянство или изменить операцию groupBy? def joinTests(measurements:...

PruthvijThakar / 01 мая 2018

0 голосов

1 ответ

Pyspark: как удалить предмет из коллекции collect_set?

В следующем фрейме данных: from pyspark.sql import functions as F df = sqlContext.createDataFrame([...

Micah Pearce / 30 апреля 2018

0 голосов

0 ответов

Mixin Factory Классы с писпарком

Я работаю с PySpark, используя фабрику mixin двух классов Но каждый раз, когда функция карты...

Zafar Mahmood / 30 апреля 2018

0 голосов

0 ответов

Spark - Эффективное разделение ключей, можете ли вы объединить методы разделения?

У меня есть паркетный файл в HDFS, размером около 1 ТБ. В настоящее время данные разбиты методом по...

AMcNall / 30 апреля 2018

0 голосов

0 ответов

java.lang.OutOfMemoryError: превышен предел издержек GC в PYSPARK

Мой сценарий искровой работы заключается в подключении к базе данных PostgreSQL, чтении данных из...

Jaya Sree Meruga / 30 апреля 2018

0 голосов

0 ответов

Объединение данных временных рядов в несколько строк по началу и концу в одну

Jonas / 30 апреля 2018

0 голосов

1 ответ

Вызывается: com.fasterxml.jackson.databind.JsonMappingException: несовместимая версия Джексона: 2.8.9

Когда я делаю df.show() для печати содержимого строк DataFrame, я получаю эту ошибку: Caused by:...

ScalaBoy / 29 апреля 2018

0 голосов

1 ответ

Сопоставить отдельные значения в одном кадре данных со значениями в другом кадре данных

У меня есть фрейм данных (DF1) с двумя столбцами +-------+------+ |words |value | +-------+------+...

Rahul Kumar / 29 апреля 2018

0 голосов

1 ответ

Выберите последнюю запись метки времени после оконной операции для каждой группы данных с помощью Spark Scala

Я выполнил подсчет попыток (пользователь, приложение) за временной промежуток дня (86400). Я хочу...

annonymous_guy / 29 апреля 2018

0 голосов

1 ответ

сгруппировать и преобразовать несколько столбцов в список, используя pyspark

Я использую pyspark. Итак, у меня есть искровой датафрейм, который выглядит так: a | b | c 5 | 2 |...

YOLO / 28 апреля 2018

0 голосов

1 ответ

Как создать новый столбец на основе расчетов, выполненных в других столбцах в PySpark

У меня есть следующий DataFrame: +-----------+----------+----------+ | some_id | one_col |...

ivan_bilan / 27 апреля 2018

0 голосов

3 ответов

Удалить кортеж и создать новый отсортированный список

У меня есть RDD , который я создал с помощью PySpark и размером около 600 ГБ после объединения по...

Sami / 27 апреля 2018