Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
1 ответ

У меня есть фрейм данных pyspark, в котором есть столбец данных, а также даты выходных. Я просто...

ggupta / 04 мая 2018
0 голосов
0 ответов

Я использую потоковую передачу pyspark для выполнения преобразования с сохранением состояния....

fali / 04 мая 2018
0 голосов
1 ответ

Я пытаюсь запустить PySpark Script, который строит модель линейной регрессии с PySpark и Spark...

David Li / 04 мая 2018
0 голосов
1 ответ

Я выполняю запрос диапазона в СДР точек (x, y) в pyspark. Я разделил пространство xy на сетку 16 *...

user302787 / 04 мая 2018
0 голосов
1 ответ

Я пытаюсь найти определенную строку из очень большого файла журнала. Я могу искать строку. Теперь,...

Rudrashis / 04 мая 2018
0 голосов
4 ответов

У меня есть data frame в pyspark, как показано ниже. df.show() +---+----+ | id|test| +---+----+ |...

Question_bank / 03 мая 2018
0 голосов
1 ответ

Мои данные выглядят так: id | duration | action1 | action2 | ......

ka_boom / 03 мая 2018
0 голосов
1 ответ

У меня есть файл с разделителями канала с различным количеством столбцов, например:...

disruptiveglow / 03 мая 2018
0 голосов
1 ответ

Мой вопрос : Почему Spark вычисляет sum и count для каждого раздела, выполняет ненужное (IMHO)...

pbahr / 03 мая 2018
0 голосов
1 ответ

Привет, у меня есть две такие таблицы. исходная таблица orig1 orig2 orig3 xref1 xref2 xref3 1 1 1 2...

Teju Priya / 03 мая 2018
0 голосов
1 ответ

У меня есть датафрейм со схемой: root |-- col2: integer (nullable = true) |-- col1: integer...

Alan Featherston / 03 мая 2018
0 голосов
1 ответ

Я пытаюсь выполнить CQL из pyspark. В настоящее время я могу читать и писать таблицы. $ pyspark...

Steven / 03 мая 2018
0 голосов
1 ответ

Предположим, у меня есть удаленный искровой кластер. Я могу войти в систему удаленного узла...

Michael / 03 мая 2018
0 голосов
3 ответов

Я пытаюсь заменить строку в столбце данных, используя regexp_replace. Я должен применить шаблоны...

marjun / 03 мая 2018
0 голосов
1 ответ

У меня есть два числа следующим образом: rdd1=sc.parallelize([(('a','b'),10)...

user2805885 / 03 мая 2018
0 голосов
1 ответ

Это расширение этого вопроса, Группа Apache Spark путем объединения типов и подтипов . val sales =...

ds_user / 03 мая 2018
0 голосов
1 ответ

У меня есть этот набор данных в искре, val sales = Seq( ("Warsaw", 2016,...

ds_user / 03 мая 2018
0 голосов
0 ответов

Я пытаюсь преобразовать свой DynamicFrame в DataFrame в задании AWS Glue ETL. Я получаю исключение...

Harish G. / 03 мая 2018
0 голосов
0 ответов

Я новичок в Искре. Я установил PySpark 2.3.0 на Windows. Я работаю над набором данных, который...

Sarsoura / 03 мая 2018
0 голосов
1 ответ

StringIndexer кодирует строковый столбец меток в столбец индексов меток. id | category |...

bestie / 03 мая 2018
0 голосов
1 ответ

У меня есть искровой фрейм данных, в котором я хочу вычислить промежуточный итог на основе текущего...

Masterbuilder / 03 мая 2018
0 голосов
1 ответ

Я пытаюсь выполнить операцию groupBy на фрейме данных в Spark Cloudera (2.1.0) на кластере из 7...

kupe / 03 мая 2018
0 голосов
0 ответов

Я пытаюсь прочитать данные из системы AWS RDS и записать их в Snowflake с помощью SPARK. Мое...

BlackJack / 03 мая 2018
0 голосов
0 ответов

Было сложнее, чем ожидалось, правильно настроить Spark-мастер через SparkSubmitOperator и...

benlaird / 03 мая 2018
0 голосов
1 ответ

Я использую Python2 на Spark (PySpark и Pandas) для анализа данных об использовании смайликов. У...

Peter / 02 мая 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...