Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

2 голосов
1 ответ

У меня есть большая база данных с около 500 гигабайт данных столбца.Я пытаюсь получить доступ к...

Rob / 19 апреля 2019
3 голосов
1 ответ

Я новичок в Spark.Я использую фрейм данных df следующим образом DeviceID TimeStamp A B C 00234...

pythondumb / 19 апреля 2019
0 голосов
0 ответов

CSV Pyspark имеет несколько параметров, которые могут быть переданы https://spark.apache

marisbest2 / 19 апреля 2019
0 голосов
1 ответ
0 голосов
1 ответ

Я застрял на том, что кажется простой проблемой, но я не вижу, что я делаю неправильно, или почему...

William / 19 апреля 2019
0 голосов
1 ответ

Предположим, для простоты у меня есть этот небольшой корпус, состоящий всего из двух строк....

Er1Hall / 19 апреля 2019
2 голосов
3 ответов

Я работаю над pyspark для работы с большими CSV-файлами размером более 50 ГБ. Теперь мне нужно...

GokulaKannan / 19 апреля 2019
0 голосов
0 ответов

Я пытаюсь запустить простой скрипт, который отлично работал на моем персональном компьютере, но не...

siddharth shinde / 19 апреля 2019
1 голос
0 ответов

Значение yarn.scheduler.maximum-alloc-mb установлено в 143360 МБ в файле yarn-site.xml. Я получил...

vjrock99 / 19 апреля 2019
0 голосов
0 ответов

Я пытаюсь прочитать данные postgres в моем искровом фрейме данных.Все работает нормально, пока я не...

user1871528 / 19 апреля 2019
0 голосов
1 ответ

Я пытаюсь отобразить фрейм данных, но почему-то мне все время говорят, что не определен df!Как это...

Tina / 19 апреля 2019
0 голосов
0 ответов

Я создал пустой массив, который я сохранил в формате * .npy: import numpy as np a = np.arange(50)...

aaron02 / 19 апреля 2019
0 голосов
2 ответов

У меня есть два DataFrames с одним столбцом каждый (300 строк каждый): df_realite.take(1)...

Romain Jouin / 19 апреля 2019
0 голосов
1 ответ

У меня есть pyspark rdd: proba_classe_0.take(2) [0.38030685472943737, 0.34728188900913715] Я хочу...

Romain Jouin / 19 апреля 2019
0 голосов
2 ответов

Я пытаюсь добавить содержимое файла json в папку creds.json.Однако я получаю как yntax error: EOL...

Tina / 18 апреля 2019
0 голосов
0 ответов

Я вижу похожие вопросы с Java / Scala, но как импортировать файлы, сжатые в формате zip / gzip /...

Luke / 18 апреля 2019
0 голосов
0 ответов
0 голосов
0 ответов

Я читаю довольно много данных (2.3TB) в фрейм данных искры. Все файлы CSV подготовлены для модели...

Harry Leboeuf / 18 апреля 2019
0 голосов
0 ответов

Я не уверен, правильно ли я спрашиваю об этом или нет, но у меня возникают проблемы с пониманием,...

Manas Jani / 18 апреля 2019
1 голос
1 ответ

Я пытаюсь установить PySpark на Colab. !apt-get install openjdk-8-jdk-headless -qq > /dev/null

Munna / 18 апреля 2019
0 голосов
1 ответ

Я анализирую использование памяти нашим искровым приложением.Мы используем Hive и PySpark . В нашем...

mubai zhang / 18 апреля 2019
0 голосов
1 ответ

Как часть системы рекомендаций, которую я создаю, я хочу реализовать рекомендацию по пунктам по...

Copp / 18 апреля 2019
1 голос
1 ответ

Я новичок в PySpark - и у меня проблема. Я создал код, который читает файл паркета, запрашивает его...

Bramat / 18 апреля 2019
1 голос
0 ответов

У меня есть данные о покупках с течением времени. Каждая покупка принадлежит пользователю и...

Olivier_s_j / 18 апреля 2019
1 голос
2 ответов

Я хочу фильтр df1 по time_create==last_timestamp, фильтр df2 по выбранным store_product_id из df1...

Mithril / 18 апреля 2019
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...