Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
1 ответ

Мой DataFrame имеет столбец num_of_items. Это поле счета. Теперь я хочу преобразовать его в тип...

Emma / 08 января 2019
0 голосов
1 ответ

У меня есть таблица данных в PySpark, которая содержит два столбца с типом данных Struc. Пожалуйста...

PineNuts0 / 08 января 2019
0 голосов
1 ответ

В целях тестирования я настроил кластер из 4 узлов, каждый из которых имеет Spark Worker и MongoDB...

jose / 08 января 2019
0 голосов
3 ответов

Я новичок в pyspark. Мое требование - получить / извлечь имена атрибутов из вложенного файла JSON....

user3054835 / 07 января 2019
0 голосов
0 ответов

Я настраиваю SparkSession, используя from pyspark.sql import SparkSession spark = SparkSession

Srinivasa Tadipatri / 07 января 2019
0 голосов
1 ответ

Я пытаюсь написать очень большой фрейм данных PySpark, следуя совету, который я вижу в...

con / 07 января 2019
0 голосов
1 ответ

У меня есть около 25 таблиц, и у каждой таблицы есть 3 столбца (идентификатор, дата, значение), где...

Ravi Kiran / 07 января 2019
0 голосов
2 ответов

Я очень новичок в GCP Google Cloud Platform, поэтому я надеюсь, что мой вопрос не будет выглядеть...

Andres Urrego Angel / 07 января 2019
0 голосов
0 ответов

У меня есть ранее созданный файл базы данных, созданный с помощью sqlite с python api. Я...

Nacho / 07 января 2019
0 голосов
0 ответов

Я пытаюсь интегрировать JupyterHub и PySpark. Для этого я установил JupyterHub и PySpark на свой...

Matheus Correia / 07 января 2019
0 голосов
1 ответ

Когда я пытаюсь прочитать фолд, содержащий несколько файлов CSV, с помощью pyspark (2.2.1) в фрейм...

WangYihan / 07 января 2019
0 голосов
1 ответ

Продолжение моего предыдущего вопроса : Я пишу большой массив данных в пакете из Databricks в Kafka

silent / 07 января 2019
0 голосов
0 ответов

У меня есть JSON со структурой и "массивом типа структуры данных", я могу автоматически...

davesunil.sunil sunil / 07 января 2019
0 голосов
1 ответ

Я использую XGBoost в PySpark, поместив эти две банки xgboost4j и xgboost4j-spark в папку...

Clock Slave / 07 января 2019
0 голосов
1 ответ

Я портирую потоковое приложение, написанное на scala, на python. Я хочу вручную зафиксировать...

Girish Gupta / 07 января 2019
0 голосов
1 ответ

Окружающая среда: Четыре сервера Debian 9 (с именами visa0, visa1, visa2, visa3) кластер Spark (v2

jose / 07 января 2019
0 голосов
0 ответов

У меня есть вопрос о времени выполнения функции "распараллелить". Когда я вызываю эту строку кода:...

tamirg / 06 января 2019
0 голосов
0 ответов

Создана схема, которая должна выбирать только идентификатор и название места, откуда был отправлен...

tschunknail / 06 января 2019
0 голосов
1 ответ

Я работаю над приложением ETL, использующим pyspark. Я закончил реализацию и при запуске его на...

user2361174 / 06 января 2019
0 голосов
1 ответ

Я (пытаюсь) запустить pyspark на Manjaro Linux с Python2. Я создал тестовый скрипт, чтобы создать...

ahura / 05 января 2019
0 голосов
1 ответ

Я пытаюсь экспортировать результаты запроса spark.sql в Databricks в папку в хранилище озера данных...

Carltonp / 05 января 2019
0 голосов
1 ответ

например: x = RandomRDDs.normalRDD(sc, size=3, seed=0) х выглядит так: [-1,3, -2,4, -4,5] Я хочу...

Yvonne / 05 января 2019
0 голосов
0 ответов

Мой код в Python3 завершается с ошибкой: Py4JJavaError: Произошла ошибка при вызове o45.load. :...

Pruthvi Raj / 05 января 2019
0 голосов
1 ответ

Команда ANALYZE TABLE, запускаемая из Spark для таблицы Hive, не дает такого же улучшения...

DinoG / 04 января 2019
0 голосов
1 ответ

Я пытаюсь отформатировать свой столбец отметки времени, чтобы включить миллисекунды без успеха. Как...

Anand Hemmige / 04 января 2019
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...