Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
0 ответов

Как я могу распараллелить функцию, которая работает над различными фильтрами кадра данных,...

Ignacio / 25 сентября 2018
0 голосов
2 ответов

Уважаемые, я использую Windows 10, и я знаком с тестированием моего кода Python в Spyder.однако,...

Mohammad Rasheed / 25 сентября 2018
0 голосов
0 ответов

Я пытаюсь заставить spark применять оконную функцию только к указанному подмножеству кадра данных,...

Math_kv / 25 сентября 2018
0 голосов
1 ответ

Несмотря на то, что compress-lzf-1.0.3.jar присутствует в spark / jars, я не могу избавиться от...

darkmatter / 25 сентября 2018
0 голосов
0 ответов

Я пытаюсь подключиться к hbase из Pyspark с помощью SHC API, перейдя по ссылке ниже....

Shankar / 25 сентября 2018
0 голосов
0 ответов

У меня есть столбец "secteur" со значениями от 0 до 311. Я хочу сделать некоторые вычисления с...

Pierre C / 25 сентября 2018
0 голосов
1 ответ

У меня есть код ниже, который используется для копирования данных из таблицы HIVE в HDFS в режиме...

KoushikDe / 25 сентября 2018
0 голосов
1 ответ

Возникли проблемы с использованием registerDataFrameAsTable.Согласно документации, он выглядит как...

simplycoding / 25 сентября 2018
0 голосов
1 ответ

У меня есть фрейм данных pyspark 2.0, который я пытаюсь отфильтровать на основе (относительно)...

flyingmeatball / 25 сентября 2018
0 голосов
2 ответов

Я выполняю перекрестную проверку набора данных для некоторого набора гиперпараметров. lr =...

merkle / 25 сентября 2018
0 голосов
0 ответов

Я работаю над проектом python spark, где изначально я написал скрипт для загрузки фрейма данных в...

Sangeeta / 25 сентября 2018
0 голосов
1 ответ

Я пытаюсь создать один горячий кодировщик для следующих входных данных:...

twfx / 25 сентября 2018
0 голосов
1 ответ

Рассмотрим следующую схему: root |-- A: string (nullable = true) |-- B: string (nullable = true)...

Ébe Isaac / 25 сентября 2018
0 голосов
0 ответов

У меня есть два документа (1.tmt и 2.tmt), которые я собрал как RDD. 1.tmt содержит следующее: 1...

Oscar / 25 сентября 2018
0 голосов
1 ответ

Ниже приведен код pyspark, который пытается выполнить в лямбда-функциях aws, но он вызывает ошибку...

Sreeni / 25 сентября 2018
0 голосов
2 ответов

У меня есть строки для одного устройства, и я хотел бы сгруппировать все те же события, которые...

NGrech / 25 сентября 2018
0 голосов
0 ответов

У меня есть фрейм данных, который имеет IntegerType и StringType, это подтверждается, когда я...

Yanfa Adi Putra / 25 сентября 2018
0 голосов
0 ответов

Я применяю объединение для объединения 2 наборов данных: 1. когда у меня есть один большой набор...

SAHIL / 25 сентября 2018
0 голосов
2 ответов

Я использую beeline для перечисления всех существующих таблиц кустов в нашем кластере:...

Mat / 25 сентября 2018
0 голосов
0 ответов

Есть ли какой-нибудь выход для доступа к java-объектам на рабочих узлах через pyspark? Ниже...

java_dev / 25 сентября 2018
0 голосов
1 ответ

Файл моего паркета получен из CSV, в котором некоторые ячейки экранированы.Например: это значение...

Sashank / 25 сентября 2018
0 голосов
1 ответ

Я пытаюсь удалить дубликаты в кадрах данных spark с помощью dropDuplicates () на нескольких...

Saurabh / 24 сентября 2018
0 голосов
0 ответов

Я работаю с Jupyter Hub, установленным в Docker, в кластере AWS.В этом Jupyter Hub есть ядра python...

lugger1 / 24 сентября 2018
0 голосов
1 ответ

Я понимаю, что могу загрузить всю таблицу из каталога JDBC-подключения через контекст Glue...

Jeff / 24 сентября 2018
0 голосов
0 ответов

У меня есть работа Spark, которая читает файл CSV и выполняет несколько объединений и...

momo / 24 сентября 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...