Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
1 ответ

Как я могу изменить файл csv на DataFrame. значения csv - country,2015,2016,2017,2018,2019 Norway,4

vengatesh aravinth / 13 февраля 2019
0 голосов
0 ответов

Я на ноутбуке Jupyter. Я бы хотел использовать запрос dsl для подготовки исходного Dataframe. Я...

eugene / 13 февраля 2019
0 голосов
1 ответ

У меня есть функция для создания SparkContext и SQLContext. def init_spark(query=None): def...

eugene / 13 февраля 2019
0 голосов
1 ответ

Я пытаюсь добавить новый столбец в существующий спарк df.Если я указываю имя столбца df в качестве...

Arun / 13 февраля 2019
0 голосов
0 ответов

Так что моя проблема иногда в том, что моя работа по склеиванию занимает много времени или вообще...

AntonyP / 13 февраля 2019
0 голосов
0 ответов

Я использую spark 1.6 на 3 виртуальных машинах (т.е. 1x master; 2x slave), все с 8 ядрами,...

Nikolan Asad / 13 февраля 2019
0 голосов
1 ответ

:) Я работаю над огромным набором данных (dataframe), который я хочу показать публично, для которого...

Eva / 13 февраля 2019
0 голосов
1 ответ

У меня есть фрейм данных pyspark spark = SparkSession\ .builder\ .appName("NPS_TF")\

Yang / 13 февраля 2019
0 голосов
0 ответов

Я пытаюсь запустить скрипт pyspark в рабочем процессе oozie, но скрипт не запускается.Какие...

Shreya Moghe / 13 февраля 2019
0 голосов
1 ответ

Я пытаюсь создать JSON из моего фрейма данных pyspark.Я вижу в моем фрейме данных данные...

Shankar Panda / 13 февраля 2019
0 голосов
1 ответ

Я пытаюсь получить все уникальные значения СДР и соответствующие им числа вхождений.Я пытался...

Rahul / 13 февраля 2019
0 голосов
1 ответ

Я изучаю PySpark.Из https://spark.apache.org/docs/2.2.0/ml-pipeline.html, есть пример: from pyspark

Feng Chen / 13 февраля 2019
0 голосов
1 ответ

Я хочу удалить числа с 5 или более цифрами из столбца DataFrame, используя RegexTokenizer PySpark

huppert / 13 февраля 2019
0 голосов
1 ответ

Моя конечная цель - использовать PySpark для эффективной индексации большого объема данных в...

LaserJesus / 13 февраля 2019
0 голосов
0 ответов

У меня есть несколько паркетных файлов в корзине s3 в разделе год-месяц-день.Ниже приведена схема...

Rajan babu / 13 февраля 2019
0 голосов
0 ответов

У меня есть набор данных с приведенной ниже структурой. { "id": 1,...

ZZzzZZzz / 13 февраля 2019
0 голосов
1 ответ

Я хочу отфильтровать набор данных за все даты до определенной даты.В частности, за 1 день до...

PineNuts0 / 12 февраля 2019
0 голосов
0 ответов

У меня проблема с pyspark.Я могу запустить свой кластер, когда я загружаю pysparkshell из командной...

plankton / 12 февраля 2019
0 голосов
0 ответов

Я пытаюсь выполнить анализ логистической регрессии для набора данных футбольных матчей, чтобы...

Manoj / 12 февраля 2019
0 голосов
1 ответ

Я пытался объединить два кадра данных, используя следующий список ключей объединения, переданных в...

jayesh / 12 февраля 2019
0 голосов
1 ответ

Как я могу узнать - внутри конвейера - какие записи пропускаются или удаляются из преобразования? У...

Jeff Saremi / 12 февраля 2019
0 голосов
1 ответ

Я пытаюсь запустить pyspark на yarn-client, не уверен, что может быть причиной, и не может...

Exorcismus / 12 февраля 2019
0 голосов
2 ответов

Работая над улучшением производительности кода, поскольку многие задания не выполнялись (прервано),...

SarahData / 12 февраля 2019
0 голосов
0 ответов

Мы используем pyspark - лазурный кластер HDInsight и работаем с ноутбуками на python.В настоящее...

Veerendra Patil / 12 февраля 2019
0 голосов
0 ответов

Я новая искра, я хочу получить смежность и получить СДР, но я не знаю, как это сделать...

Vision Yang / 12 февраля 2019
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...