Вопросы с тегом pyspark

0 голосов

1 ответ

Тестовый паркет с питоном

Я пытаюсь смоделировать parquet и утверждать, что он вызывается с правильным путем, но возникают...

ChaseHardin / 03 октября 2019

0 голосов

0 ответов

Как преобразовать строку, содержащую наносекунды, в дату и время в Spark Dataframe

У меня есть поле метки времени, как показано ниже в моем файле JSON....

jakrm / 03 октября 2019

0 голосов

0 ответов

Как переместить все структуры JSON на один уровень / преобразовать все структуры JSON в строки в pyspark?

Мне нужно было бы полностью сгладить многие (10TB +) все столбцы json в каждом файле. Моя структура...

OT Dani / 03 октября 2019

0 голосов

1 ответ

Присоединяйтесь к 270 столбцам в PySpark

Я столкнулся с проблемой при объединении большого количества столбцов. У меня 270 выходов данных с...

user3278216 / 03 октября 2019

0 голосов

1 ответ

Как умножить строки над окном в pyspark?

Я хочу реализовать следующую формулу, используя pyspark: Lx_BOP(1) = 1 Lx_BOP(n+1) = Lx_BOP(n) * (1...

Eran Witkon / 03 октября 2019

0 голосов

1 ответ

SparkSubmit может работать локально?

когда я запускаю приведенный ниже код с помощью следующей команды spark-submit prepiadstream_sample

Ahmed Gamal / 03 октября 2019

0 голосов

0 ответов

приложение Spark Split до 4 рабочих мест

из того, что я понимаю, запускается разделение заданий с помощью операций Action и разделение...

sparrow tian / 03 октября 2019

1 голос

1 ответ

AWS Athena вставить в именованные столбцы не работает в pyspark

Я создал небольшую тестовую таблицу, используя pyspark query=""" CREATE EXTERNAL...

user2699504 / 03 октября 2019

0 голосов

1 ответ

оператор print не работает в автономном кластере Spark из 3 узлов

У меня есть автономный кластер с искрой (3 узла), где программа драйвера работает на главном (1...

yguw / 03 октября 2019

0 голосов

2 ответов

Как добавить постоянный столбец с максимальным значением в фрейм данных pyspark без группировки по

Предположим, что у нас есть фрейм данных PySpark с двумя столбцами, ID (он уникален) и VALUE. Мне...

WorkBench / 03 октября 2019

0 голосов

0 ответов

Эффективное преобразование массива Spark в одну строку для Postgres

У меня есть фрейм данных Pyspark, где один из столбцов является массивом строк (длина массива может...

nciao / 03 октября 2019

1 голос

0 ответов

Pyspark csv write завершается неудачно с coalesce (1), но выполняется с перераспределением (1)

Я пытаюсь записать искровой DF в один CSV-файл. Обычно я использую этот вызов, который работает: df

Alex / 03 октября 2019

1 голос

0 ответов

Сжатие СДР с одинаковым количеством элементов, но с ошибками, которые «могут заархивировать СДР с одинаковым количеством элементов в каждом разделе»

Я пытаюсь заархивировать два диска с одинаковым количеством элементов. Но при вызове zip я получаю...

wookieluvr13 / 02 октября 2019

0 голосов

1 ответ

Загрузка файла паркета в таблицу кустов, сохраненную как ошибка паркета

Я просто пытаюсь создать таблицу в кусте, которая хранится в виде файла паркета, а затем...

Coder123 / 02 октября 2019

2 голосов

1 ответ

Раскрутка кластера Dataproc с помощью Spark BigQuery Connector

Чтение инструкций по этому репо: Соединители Google Cloud Storage и BigQuery Я выполнил приведенное...

Christos Hadjinikolis / 02 октября 2019

0 голосов

1 ответ

Почему pySpark не может запускать только функции udf?

Я настроил pyspark на машине EC2 с двумя узлами. Я запускаю pyspark с помощью команды pyspark...

Jaskaran Singh Puri / 02 октября 2019

1 голос

1 ответ

Разница двух столбцов списка в Pyspark

У меня есть фрейм данных с двумя столбцами типа списка. Я пытаюсь получить третий столбец, который...

rusty_rockstar / 02 октября 2019

0 голосов

1 ответ

Искра Ошибка при распаковке предметов из кортежа в RDD

Я написал скрипт на ноутбуке Jupyter для чтения СДР и выполнения операций. Скрипт отлично работает...

algorythms / 02 октября 2019

0 голосов

0 ответов

Когда использовать EC2 или EMR для Jupyterhub?

Я сейчас новичок в больших данных. Мне нужно настроить Jupytertub с PySpark, чтобы делать некоторые...

Leah Lee / 02 октября 2019

0 голосов

0 ответов

Как объединить все сжатые текстовые файлы в одну папку в озере?

Я пытаюсь найти наиболее эффективный способ перебрать тысячи файлов в озере данных и объединить все...

asher / 02 октября 2019

2 голосов

1 ответ

Объедините два разных RDD с двумя разными наборами данных, но одним и тем же ключом

RDD_1 содержит строки, подобные следующим: (u'id2875421', 2, datetime.datetime(2016, 3,...

wookieluvr13 / 01 октября 2019

1 голос

3 ответов

Сокращение значений в списках (ключ, значение) СДР, учитывая, что эти списки являются значениями в другом списке (ключ, значение) СДР

Я какое-то время кувыркаюсь над этим - буду очень признателен за любые предложения! Извините за...

Denys Prykhodko / 01 октября 2019

1 голос

1 ответ

Использование pyspark для записи в cassandra с отметкой времени

Я хотел бы иметь возможность использовать USING TIMESTAMP Кассандры, например: INSERT INTO ......

Felipe Caputo / 01 октября 2019

0 голосов

1 ответ

Как загрузить разные файлы в разные таблицы, основываясь на шаблоне файла?

Я запускаю простой скрипт PySpark, как этот. base_path = '/mnt/rawdata/' file_names =...

asher / 01 октября 2019

1 голос

2 ответов

Добавление элемента List в виде столбца в существующий фрейм данных pyspark

У меня есть список lists=[0,1,2,3,5,6,7]. Заказ не последовательный. У меня есть фрейм данных...

user-2147482338 / 01 октября 2019