Вопросы с тегом pyspark

2 голосов

1 ответ

Как сделать длинный запрос с помощью WHERE IN с использованием Spark?

У меня есть большая база данных с около 500 гигабайт данных столбца.Я пытаюсь получить доступ к...

Rob / 19 апреля 2019

3 голосов

1 ответ

PySpark: поиск значения столбца на основе максимального значения трех других столбцов

Я новичок в Spark.Я использую фрейм данных df следующим образом DeviceID TimeStamp A B C 00234...

pythondumb / 19 апреля 2019

0 голосов

0 ответов

Pyspark эквивалент CSV Excel диалект

CSV Pyspark имеет несколько параметров, которые могут быть переданы https://spark.apache

marisbest2 / 19 апреля 2019

0 голосов

1 ответ

Перекрестное соединение между двумя фреймами данных, которое зависит от общего столбца

Кросс-джойн можно сделать следующим образом: df1 = pd

Olivier_s_j / 19 апреля 2019

0 голосов

1 ответ

Pyspark dataframe не сбрасывает все дубликаты

Я застрял на том, что кажется простой проблемой, но я не вижу, что я делаю неправильно, или почему...

William / 19 апреля 2019

0 голосов

1 ответ

Понимание списка Python с преобразованием лямбда-функции

Предположим, для простоты у меня есть этот небольшой корпус, состоящий всего из двух строк....

Er1Hall / 19 апреля 2019

2 голосов

3 ответов

Найти количество разных значений между двумя одинаковыми значениями в CSV-файле, используя pyspark

Я работаю над pyspark для работы с большими CSV-файлами размером более 50 ГБ. Теперь мне нужно...

GokulaKannan / 19 апреля 2019

0 голосов

0 ответов

Почему скрипт pyspark запускается на моем персональном компьютере, а не на рабочем компьютере?

Я пытаюсь запустить простой скрипт, который отлично работал на моем персональном компьютере, но не...

siddharth shinde / 19 апреля 2019

1 голос

0 ответов

Увеличьте значение yarn.scheduler.maximum-alloc-mb в файле yarn-site.xml.

Значение yarn.scheduler.maximum-alloc-mb установлено в 143360 МБ в файле yarn-site.xml. Я получил...

vjrock99 / 19 апреля 2019

0 голосов

0 ответов

как читать массив jsons в pyspark

Я пытаюсь прочитать данные postgres в моем искровом фрейме данных.Все работает нормально, пока я не...

user1871528 / 19 апреля 2019

0 голосов

1 ответ

Датафрейм в PySpark не отображается

Я пытаюсь отобразить фрейм данных, но почему-то мне все время говорят, что не определен df!Как это...

Tina / 19 апреля 2019

0 голосов

0 ответов

Как загрузить двоичные файлы (* .npy) из hdfs в RDD с помощью PySpark

Я создал пустой массив, который я сохранил в формате * .npy: import numpy as np a = np.arange(50)...

aaron02 / 19 апреля 2019

0 голосов

2 ответов

PySpark: как сопоставить 2 столбца?

У меня есть два DataFrames с одним столбцом каждый (300 строк каждый): df_realite.take(1)...

Romain Jouin / 19 апреля 2019

0 голосов

1 ответ

Pyspark не может преобразовать float в Float: - /

У меня есть pyspark rdd: proba_classe_0.take(2) [0.38030685472943737, 0.34728188900913715] Я хочу...

Romain Jouin / 19 апреля 2019

0 голосов

2 ответов

Синтаксическая ошибка при добавлении переменной в аргумент

Я пытаюсь добавить содержимое файла json в папку creds.json.Однако я получаю как yntax error: EOL...

Tina / 18 апреля 2019

0 голосов

0 ответов

pyspark для чтения сжатых файлов без распаковки

Я вижу похожие вопросы с Java / Scala, но как импортировать файлы, сжатые в формате zip / gzip /...

Luke / 18 апреля 2019

0 голосов

0 ответов

Ошибка превышения лимита служебных данных GC только в том случае, если выполнено одиночное соединение для нескольких столбцов

Предположим, у меня есть следующие два кадра данных df df_type +---+---+ +---+-------+ | s| o| | e|...

user1848018 / 18 апреля 2019

0 голосов

0 ответов

Удваивает ли saveAsTable память?

Я читаю довольно много данных (2.3TB) в фрейм данных искры. Все файлы CSV подготовлены для модели...

Harry Leboeuf / 18 апреля 2019

0 голосов

0 ответов

Распакуйте словарь со значением ключа, который может быть списком

Я не уверен, правильно ли я спрашиваю об этом или нет, но у меня возникают проблемы с пониманием,...

Manas Jani / 18 апреля 2019

1 голос

1 ответ

findspark.init () IndexError: список индексов вне диапазона: PySpark в Google Colab

Я пытаюсь установить PySpark на Colab. !apt-get install openjdk-8-jdk-headless -qq > /dev/null

Munna / 18 апреля 2019

0 голосов

1 ответ

Будет ли спарк создавать или заменять временный вид, добавлять память в Hive Metastore?

Я анализирую использование памяти нашим искровым приложением.Мы используем Hive и PySpark . В нашем...

mubai zhang / 18 апреля 2019

0 голосов

1 ответ

Как часть системы рекомендаций, которую я создаю, я хочу реализовать рекомендацию по пунктам по...

Copp / 18 апреля 2019

1 голос

1 ответ

Не удается получить объект карты из PySpark sql

Я новичок в PySpark - и у меня проблема. Я создал код, который читает файл паркета, запрашивает его...

Bramat / 18 апреля 2019

1 голос

0 ответов

Как эффективно реализовать групповые и последующие применения с течением времени, используя pyspark

У меня есть данные о покупках с течением времени. Каждая покупка принадлежит пользователю и...

Olivier_s_j / 18 апреля 2019

1 голос

2 ответов

pyspark: dataframe выбирает строку по id в столбце другого dataframe

Я хочу фильтр df1 по time_create==last_timestamp, фильтр df2 по выбранным store_product_id из df1...

Mithril / 18 апреля 2019