Вопросы с тегом pyspark

0 голосов

0 ответов

Как паралеллизировать функцию с PySpark

Как я могу распараллелить функцию, которая работает над различными фильтрами кадра данных,...

Ignacio / 25 сентября 2018

0 голосов

2 ответов

Запуск pyspark в (Anaconda - Spyder) в ОС Windows

Уважаемые, я использую Windows 10, и я знаком с тестированием моего кода Python в Spyder.однако,...

Mohammad Rasheed / 25 сентября 2018

0 голосов

0 ответов

Применение функции искрового окна к подмножеству данных

Я пытаюсь заставить spark применять оконную функцию только к указанному подмножеству кадра данных,...

Math_kv / 25 сентября 2018

0 голосов

1 ответ

Ошибка Pyspark - кодек сжатия com.hadoop.compression.lzo.LzoCodec не найден в AWS EMR

Несмотря на то, что compress-lzf-1.0.3.jar присутствует в spark / jars, я не могу избавиться от...

darkmatter / 25 сентября 2018

0 голосов

0 ответов

pyspark - не удалось найти источник данных для бросков коннектора Spark hbase

Я пытаюсь подключиться к hbase из Pyspark с помощью SHC API, перейдя по ссылке ниже....

Shankar / 25 сентября 2018

0 голосов

0 ответов

Как разделить по каждому значению столбца в pyspark?

У меня есть столбец "secteur" со значениями от 0 до 311. Я хочу сделать некоторые вычисления с...

Pierre C / 25 сентября 2018

0 голосов

1 ответ

Как я могу получить доступ к переменной в Pyspark, как в Scala, используя s & $

У меня есть код ниже, который используется для копирования данных из таблицы HIVE в HDFS в режиме...

KoushikDe / 25 сентября 2018

0 голосов

1 ответ

Как я могу использовать Spark registerDataFrameAsTable в PySpark?

Возникли проблемы с использованием registerDataFrameAsTable.Согласно документации, он выглядит как...

simplycoding / 25 сентября 2018

0 голосов

1 ответ

фрейм данных фильтра pyspark на основе широковещательной переменной

У меня есть фрейм данных pyspark 2.0, который я пытаюсь отфильтровать на основе (относительно)...

flyingmeatball / 25 сентября 2018

0 голосов

2 ответов

Как получить лучшее значение гиперпараметра после перекрестной проверки в Pyspark?

Я выполняю перекрестную проверку набора данных для некоторого набора гиперпараметров. lr =...

merkle / 25 сентября 2018

0 голосов

0 ответов

Сбой программы для Spark_Home в foreachPartition с изменением местоположения утилиты загрузки базы данных из одного модуля в другой

Я работаю над проектом python spark, где изначально я написал скрипт для загрузки фрейма данных в...

Sangeeta / 25 сентября 2018

0 голосов

1 ответ

Создание One-Hot Encoder.CountVectorizer возвращает ошибку с ArrayType (IntergerType, true)

Я пытаюсь создать один горячий кодировщик для следующих входных данных:...

twfx / 25 сентября 2018

0 голосов

1 ответ

Как сделать, чтобы значения вложенного поля были нулевыми в PySpark?

Рассмотрим следующую схему: root |-- A: string (nullable = true) |-- B: string (nullable = true)...

Ébe Isaac / 25 сентября 2018

0 голосов

0 ответов

Найти список терминов в документе с pyspark

У меня есть два документа (1.tmt и 2.tmt), которые я собрал как RDD. 1.tmt содержит следующее: 1...

Oscar / 25 сентября 2018

0 голосов

1 ответ

Как подключиться к oracle db из лямбда-функций aws

Ниже приведен код pyspark, который пытается выполнить в лямбда-функциях aws, но он вызывает ошибку...

Sreeni / 25 сентября 2018

0 голосов

2 ответов

Превратить несколько строк событий с временными метками в кадре данных в одну строку с начальной и конечной датой-временем

У меня есть строки для одного устройства, и я хотел бы сгруппировать все те же события, которые...

NGrech / 25 сентября 2018

0 голосов

0 ответов

Pyspark write CSV всегда записывается как Integer Type

У меня есть фрейм данных, который имеет IntegerType и StringType, это подтверждается, когда я...

Yanfa Adi Putra / 25 сентября 2018

0 голосов

0 ответов

Spark объединяет медленные итерации с использованием широковещательной переменной

Я применяю объединение для объединения 2 наборов данных: 1. когда у меня есть один большой набор...

SAHIL / 25 сентября 2018

0 голосов

2 ответов

Показать таблицу не показывает все таблицы в улье

Я использую beeline для перечисления всех существующих таблиц кустов в нашем кластере:...

Mat / 25 сентября 2018

0 голосов

0 ответов

PySpark - Как получить доступ к Java-объекту / функции в функции карты в RDD.Если объект не сериализуем

Есть ли какой-нибудь выход для доступа к java-объектам на рабочих узлах через pyspark? Ниже...

java_dev / 25 сентября 2018

0 голосов

1 ответ

Python Spark - экранирование кавычек в файле партера

Файл моего паркета получен из CSV, в котором некоторые ячейки экранированы.Например: это значение...

Sashank / 25 сентября 2018

0 голосов

1 ответ

Самый оптимальный способ удаления дубликатов в pySpark

Я пытаюсь удалить дубликаты в кадрах данных spark с помощью dropDuplicates () на нескольких...

Saurabh / 24 сентября 2018

0 голосов

0 ответов

в блокноте pyspark в AWS JupyterHub, панды не отображают график

Я работаю с Jupyter Hub, установленным в Docker, в кластере AWS.В этом Jupyter Hub есть ядра python...

lugger1 / 24 сентября 2018

0 голосов

1 ответ

Как загрузить частичные данные из каталогизированного соединения JDBC в AWS Glue?

Я понимаю, что могу загрузить всю таблицу из каталога JDBC-подключения через контекст Glue...

Jeff / 24 сентября 2018

0 голосов

0 ответов

pyspark собирать, заставляя память снимать 80GB

У меня есть работа Spark, которая читает файл CSV и выполняет несколько объединений и...

momo / 24 сентября 2018