Вопросы с тегом pyspark

0 голосов

1 ответ

Преобразовать столбец int в тип списка pyspark

Мой DataFrame имеет столбец num_of_items. Это поле счета. Теперь я хочу преобразовать его в тип...

Emma / 08 января 2019

0 голосов

1 ответ

PySpark: объединить два столбца с типом данных Struc -> Ошибка: невозможно устранить из-за несоответствия типов данных

У меня есть таблица данных в PySpark, которая содержит два столбца с типом данных Struc. Пожалуйста...

PineNuts0 / 08 января 2019

0 голосов

1 ответ

Разъем Spark Mongo, MongoShardedPartitioner не работает

В целях тестирования я настроил кластер из 4 узлов, каждый из которых имеет Spark Worker и MongoDB...

jose / 08 января 2019

0 голосов

3 ответов

Pyspark - получить имена атрибутов из файла json

Я новичок в pyspark. Мое требование - получить / извлечь имена атрибутов из вложенного файла JSON....

user3054835 / 07 января 2019

0 голосов

0 ответов

этот спаркконтекст уже существующий

Я настраиваю SparkSession, используя from pyspark.sql import SparkSession spark = SparkSession

Srinivasa Tadipatri / 07 января 2019

0 голосов

1 ответ

Как использовать кластеризацию Zorder при написании дельта-таблицы в PySpark?

Я пытаюсь написать очень большой фрейм данных PySpark, следуя совету, который я вижу в...

con / 07 января 2019

0 голосов

1 ответ

Как объединить несколько фреймов данных по столбцам в pyspark?

У меня есть около 25 таблиц, и у каждой таблицы есть 3 столбца (идентификатор, дата, значение), где...

Ravi Kiran / 07 января 2019

0 голосов

2 ответов

GCP Dataproc, потребляющий искры BigQuery

Я очень новичок в GCP Google Cloud Platform, поэтому я надеюсь, что мой вопрос не будет выглядеть...

Andres Urrego Angel / 07 января 2019

0 голосов

0 ответов

проблема при выполнении операций спарка над файлом базы данных, созданным с помощью sqlite

У меня есть ранее созданный файл базы данных, созданный с помощью sqlite с python api. Я...

Nacho / 07 января 2019

0 голосов

0 ответов

Интеграция JupyterHub и PySpark - ошибка процесса шлюза Java

Я пытаюсь интегрировать JupyterHub и PySpark. Для этого я установил JupyterHub и PySpark на свой...

Matheus Correia / 07 января 2019

0 голосов

1 ответ

Pyspark считывает несколько файлов CSV в кадре данных в порядке

Когда я пытаюсь прочитать фолд, содержащий несколько файлов CSV, с помощью pyspark (2.2.1) в фрейм...

WangYihan / 07 января 2019

0 голосов

1 ответ

Пакетная запись от Kafka не соблюдает контрольные точки и записывает дубликаты

Продолжение моего предыдущего вопроса : Я пишу большой массив данных в пакете из Databricks в Kafka

silent / 07 января 2019

0 голосов

0 ответов

Pyspark обрабатывает массив структурного типа в автоматическом режиме

У меня есть JSON со структурой и "массивом типа структуры данных", я могу автоматически...

davesunil.sunil sunil / 07 января 2019

0 голосов

1 ответ

Проблема с трекером с XGBoost в PySpark

Я использую XGBoost в PySpark, поместив эти две банки xgboost4j и xgboost4j-spark в папку...

Clock Slave / 07 января 2019

0 голосов

1 ответ

Вручную зафиксировать смещение в кафке Direct Stream в python

Я портирую потоковое приложение, написанное на scala, на python. Я хочу вручную зафиксировать...

Girish Gupta / 07 января 2019

0 голосов

1 ответ

spark подключается к сегментированному кластеру mongoDB, но данные не выбираются

Окружающая среда: Четыре сервера Debian 9 (с именами visa0, visa1, visa2, visa3) кластер Spark (v2

jose / 07 января 2019

0 голосов

0 ответов

Spark - время выполнения sc.parallelize ()

У меня есть вопрос о времени выполнения функции "распараллелить". Когда я вызываю эту строку кода:...

tamirg / 06 января 2019

0 голосов

0 ответов

Неожиданный вывод из вложенной схемы для twitter-json

Создана схема, которая должна выбирать только идентификатор и название места, откуда был отправлен...

tschunknail / 06 января 2019

0 голосов

1 ответ

PySpark: необработанное исключение в модуле записи потока stdout для python.exe

Я работаю над приложением ETL, использующим pyspark. Я закончил реализацию и при запуске его на...

user2361174 / 06 января 2019

0 голосов

1 ответ

Pyspark выдает ошибку JNI при создании SparkContext

Я (пытаюсь) запустить pyspark на Manjaro Linux с Python2. Я создал тестовый скрипт, чтобы создать...

ahura / 05 января 2019

0 голосов

1 ответ

Как экспортировать результаты запроса SQL из блоков данных в хранилище озера данных Azure

Я пытаюсь экспортировать результаты запроса spark.sql в Databricks в папку в хранилище озера данных...

Carltonp / 05 января 2019

0 голосов

1 ответ

Умножить каждый элемент СДР на соответствующий элемент в списке

например: x = RandomRDDs.normalRDD(sc, size=3, seed=0) х выглядит так: [-1,3, -2,4, -4,5] Я хочу...

Yvonne / 05 января 2019

0 голосов

0 ответов

искра не может прочитать из AWS

Мой код в Python3 завершается с ошибкой: Py4JJavaError: Произошла ошибка при вызове o45.load. :...

Pruthvi Raj / 05 января 2019

0 голосов

1 ответ

Разница между Spark и Hive с помощью команды ANALYZE TABLE -

Команда ANALYZE TABLE, запускаемая из Spark для таблицы Hive, не дает такого же улучшения...

DinoG / 04 января 2019

0 голосов

1 ответ

pyspark to_timestamp не включает миллисекунды

Я пытаюсь отформатировать свой столбец отметки времени, чтобы включить миллисекунды без успеха. Как...

Anand Hemmige / 04 января 2019