Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
0 ответов

У меня есть сценарий pyspark как часть работы oozie.Действия следующие: 1. Извлечь данные из...

knagesh / 24 сентября 2018
0 голосов
1 ответ

У меня есть скрипт ниже (я удалил все имена столбцов и т. Д., Чтобы было проще увидеть, что я делаю...

kikee1222 / 24 сентября 2018
0 голосов
1 ответ

Как видно из заголовка, я пытаюсь создать внешние модули, которые впоследствии импортируются и...

Kishintai / 24 сентября 2018
0 голосов
1 ответ

В PySpark я пытаюсь очистить набор данных.Некоторые столбцы имеют нежелательные символы (= "") в...

Hoenie / 24 сентября 2018
0 голосов
1 ответ

У меня есть строка, как показано ниже в текстовом файле: ar.txt has 'K1:v1,K2:v2, K3:v3'...

msashish / 24 сентября 2018
0 голосов
1 ответ

У меня есть два больших кадра данных искры.Я присоединился к ним одним общим столбцом: df_joined =...

Saeid SOHEILY KHAH / 24 сентября 2018
0 голосов
1 ответ

Я присоединился к двум фреймам данных и сейчас пытаюсь получить отчет, состоящий из столбцов из...

Ravi / 24 сентября 2018
0 голосов
0 ответов

Spark - Как импортировать зависимости, которые имеют .so файлы в Spark?Добавлены файлы зависимостей...

user3610141 / 23 сентября 2018
0 голосов
2 ответов

У меня есть искровой датафрейм в python.И это было отсортировано на основе столбца.Как я могу...

OmG / 23 сентября 2018
0 голосов
0 ответов
0 голосов
1 ответ

Я новичок в спарке, у меня есть случай использования, когда мне нужно сохранить данные фрейма...

Raghav salotra / 23 сентября 2018
0 голосов
1 ответ

В HDFS у меня есть такие каталоги, как этот hdfs: // имя хоста / данные / канал / данные / dt =...

kikee1222 / 23 сентября 2018
0 голосов
0 ответов

У меня есть набор данных транзакции, который я готовлю к val df = spark.read.parquet(".

Alexander Mazitov / 23 сентября 2018
0 голосов
0 ответов

Использование PySpark DataFrameReader Я пытаюсь читать из таблицы RDS и записывать в таблицу...

Alex Kornhauser / 23 сентября 2018
0 голосов
1 ответ

Я использую spark 2.2 и пытаюсь прочитать набор данных из файла tsv, как показано ниже в pyspark:...

Kamal Nandan / 22 сентября 2018
0 голосов
0 ответов

У меня есть список больших двоичных объектов (wasbs url) в структурированном фрейме потоковых...

user2119453 / 22 сентября 2018
0 голосов
2 ответов

Я хочу выбрать несколько столбцов из DF. Между столбцами мне нужно добавить разные пробелы, так как...

Katty / 22 сентября 2018
0 голосов
1 ответ

Я разрабатывал в Scala Spark, используя IntelliJ.Мне удалось проверить содержимое переменной в...

user1269298 / 22 сентября 2018
0 голосов
0 ответов

У меня есть большой стол в сжатом (snappy, gzip, lzo) формате паркета.Я проверяю время для разных...

user16316 / 22 сентября 2018
0 голосов
0 ответов

Я использую функции python для абстрагирования функциональных возможностей и передачи данных в...

Ram / 22 сентября 2018
0 голосов
1 ответ

Я пытаюсь получить предыдущее значение в той же группе, используя фрейм данных и PySpark, но я не...

Creep / 22 сентября 2018
0 голосов
2 ответов

У меня есть датафрейм, в котором у меня есть повторяющиеся значения среди столбцов.Я хочу удалить...

Surbhi Jain / 22 сентября 2018
0 голосов
1 ответ

Используя PySpark, я хочу получить максимальное значение среди всех ключей пары RDD.Данные базового...

Soheil Pourbafrani / 21 сентября 2018
0 голосов
1 ответ

Я пытаюсь сделать UDF для панд, который принимает два столбца с целочисленными значениями и на...

UneagerAngryBeaver / 21 сентября 2018
0 голосов
1 ответ

Я новичок в PySpark, но мне удалось заставить работать ниже. У меня есть еще 2 требования, оба из...

kikee1222 / 21 сентября 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...