Я пытаюсь смоделировать parquet и утверждать, что он вызывается с правильным путем, но возникают...
У меня есть поле метки времени, как показано ниже в моем файле JSON....
Мне нужно было бы полностью сгладить многие (10TB +) все столбцы json в каждом файле. Моя структура...
Я столкнулся с проблемой при объединении большого количества столбцов. У меня 270 выходов данных с...
Я хочу реализовать следующую формулу, используя pyspark: Lx_BOP(1) = 1 Lx_BOP(n+1) = Lx_BOP(n) * (1...
когда я запускаю приведенный ниже код с помощью следующей команды spark-submit prepiadstream_sample
из того, что я понимаю, запускается разделение заданий с помощью операций Action и разделение...
Я создал небольшую тестовую таблицу, используя pyspark query=""" CREATE EXTERNAL...
У меня есть автономный кластер с искрой (3 узла), где программа драйвера работает на главном (1...
Предположим, что у нас есть фрейм данных PySpark с двумя столбцами, ID (он уникален) и VALUE. Мне...
У меня есть фрейм данных Pyspark, где один из столбцов является массивом строк (длина массива может...
Я пытаюсь записать искровой DF в один CSV-файл. Обычно я использую этот вызов, который работает: df
Я пытаюсь заархивировать два диска с одинаковым количеством элементов. Но при вызове zip я получаю...
Я просто пытаюсь создать таблицу в кусте, которая хранится в виде файла паркета, а затем...
Чтение инструкций по этому репо: Соединители Google Cloud Storage и BigQuery Я выполнил приведенное...
Я настроил pyspark на машине EC2 с двумя узлами. Я запускаю pyspark с помощью команды pyspark...
У меня есть фрейм данных с двумя столбцами типа списка. Я пытаюсь получить третий столбец, который...
Я написал скрипт на ноутбуке Jupyter для чтения СДР и выполнения операций. Скрипт отлично работает...
Я сейчас новичок в больших данных. Мне нужно настроить Jupytertub с PySpark, чтобы делать некоторые...
Я пытаюсь найти наиболее эффективный способ перебрать тысячи файлов в озере данных и объединить все...
RDD_1 содержит строки, подобные следующим: (u'id2875421', 2, datetime.datetime(2016, 3,...
Я какое-то время кувыркаюсь над этим - буду очень признателен за любые предложения! Извините за...
Я хотел бы иметь возможность использовать USING TIMESTAMP Кассандры, например: INSERT INTO ......
Я запускаю простой скрипт PySpark, как этот. base_path = '/mnt/rawdata/' file_names =...
У меня есть список lists=[0,1,2,3,5,6,7]. Заказ не последовательный. У меня есть фрейм данных...