Вопросы с тегом pyspark

0 голосов

1 ответ

"SHOW TABLES LIKE '* sub_string *'" не работает с HIVECONTEXT

hive_context.sql("use caz_applied_ana") Вот код, который я использую в ноутбуке Jupyter

Tom Serdioukov / 25 июня 2018

0 голосов

2 ответов

объединение двух Rdds с несколькими значениями и добавление дополнительного значения на основе объединения в Pyspark?

Я создал 2 RDD's, как показано ниже: rdd1 = sc.parallelize([(u'176',...

Sai / 25 июня 2018

0 голосов

0 ответов

Как контролировать размер кучи jvm с помощью Pyspark / Dataproc

Я заметил, что мои коды pyspark вызывают ошибку памяти. Используя VirtualVM, я заметил моменты,...

Yong Hyun Kwon / 25 июня 2018

0 голосов

1 ответ

Параллельный цикл Pyspark столбца данных

У меня есть необработанный pyspark Dataframe со столбцом инкапсуляции.Мне нужно зациклить все...

Guinaume / 25 июня 2018

0 голосов

1 ответ

Разница в запуске SparkSession

Я относительно новичок в Spark, но я вижу, как оба метода запускают сеанс искры. Может кто-нибудь...

Miguel A. Friginal / 25 июня 2018

0 голосов

1 ответ

Конвертировать Spark Scala оператор объединения в Python

Мне нужно преобразовать следующее выражение scala в python: scala> a.join(b, a("key")...

Gerrie van Wyk / 25 июня 2018

0 голосов

1 ответ

Пакет python со статической зависимостью файла не может прочитать статический файл при использовании в Pyspark

Я пытаюсь решить проблему с пакетами Python PySpark.Я разработал пакет python, который имеет...

Ram / 25 июня 2018

0 голосов

2 ответов

Реализация логики Informatica в искре

Как мы можем реализовать приведенную ниже логику в искре? Если значение столбца равно нулю, оно...

Ram / 24 июня 2018

0 голосов

1 ответ

Объединение каждой пары значений в кортежи в PySpark

У меня есть json, который выглядит следующим образом: { "cols": [ "id",...

Matt / 24 июня 2018

0 голосов

1 ответ

Задание Spark завершается неудачно при обработке большего набора данных

Я передаю функцию в Spark. Эта функция решает проблему оптимизации, которая занимает около половины...

Mohamed Ibrahim / 24 июня 2018

0 голосов

0 ответов

Простая работа Spark занимает слишком много времени с большим количеством задач

У меня есть HadonWorks кластер HadonWorks с следующим: 8 ядер и 16 ГБ ОЗУ (Наменод, Мастер...

rachid si oumghar / 23 июня 2018

0 голосов

1 ответ

Как использовать глобальную переменную в функции pyspark

Во-первых, у меня есть две переменные в начале кода. numericColumnNames = []...

yunus kula / 23 июня 2018

0 голосов

2 ответов

Написание функции flatMap в Spark и Python

Я пытаюсь написать функцию flatMap на языке python в понимании списка! simpleRDD = sc

Morti / 23 июня 2018

0 голосов

0 ответов

Загрузите файл на Pyspark Worker один раз

У меня проблема с большим объектом (400мл соленых), который мне нужно использовать в UDF. Объект...

mvryan / 23 июня 2018

0 голосов

1 ответ

Строка для массива в искре

У меня есть датафрейм в PySpark со строковым столбцом со значением...

Steven / 13 июня 2018

0 голосов

1 ответ

Pyspark: выбрать все столбцы, кроме определенных столбцов

У меня есть большое количество столбцов в кадре данных PySpark, скажем, 200. Я хочу выбрать все...

Tshilidzi Mudau / 13 июня 2018

0 голосов

1 ответ

Pyspark: преобразование pyspark.sql.row в датафрейм

У меня есть следующий ряд в pyspark.Я хочу объединить его с фреймом данных pandas....

Gagan / 13 июня 2018

0 голосов

1 ответ

PYSPARK - прогнозируемая метка цели, пропущенная одним классом - логистическая регрессия

Я только начал свою поездку в Pyspark, создав модель логистической регрессии, которая предсказывает...

belmont_richter / 13 июня 2018

0 голосов

0 ответов

как распределить работу по агрегации данных между несколькими искровыми исполнителями

нужно быстрое предложение. У меня есть сжатый файл в формате S3 (размер 3 ГБ), и я пытаюсь...

Suresh Chaganti / 12 июня 2018

0 голосов

1 ответ

Pyspark - среднее число дней по году и месяцу

У меня есть файл CSV, который хранится в формате hdf в следующем формате: Business Line,Requisition...

G.Marwah / 12 июня 2018

0 голосов

0 ответов

Сохранить последнюю строку для данного ключа в потоковой передаче со искрой

Подобно сжатию журналов Kafka, существует довольно много случаев, когда требуется сохранять только...

Thilo / 12 июня 2018

0 голосов

1 ответ

Фильтровать, но сохранить пустые строки

У меня расплавленный фрейм данных, который выглядит следующим образом: # +---+--------+----------+...

Tibberzz / 12 июня 2018

0 голосов

1 ответ

Выберите версию PySpark в сессии IPython

У нас есть две доступные версии Spark (1.6 и 2.1).Я установил переменные окружения (например,...

Tim / 12 июня 2018

0 голосов

1 ответ

Как сохранить результат printSchema в файл в PySpark

Я использовал df.printSchema() в pyspark, и это дает мне схему с древовидной структурой.Теперь мне...

Ahito / 12 июня 2018

0 голосов

1 ответ

Загрузка geoJSON в pyspark с проверкой схемы

Я пытаюсь создать схему для проверки GeoJSON загружаемых файлов: validSchema = StructType([...

simon_dmorias / 12 июня 2018