Вопросы с тегом pyspark

0 голосов

1 ответ

Как получить журналы результатов выполнения заданий в блокноте с помощью Python, Pyspark или scala

Мне нужно получить журналы результатов выполнения задания в блокноте с использованием python,...

pythonUser / 01 апреля 2019

0 голосов

0 ответов

Как войти из приложения PySpark в HDFS, используя библиотеку журналов python

Как войти в HDFS, используя стандартную библиотеку журналов. В частности, я использую...

bazinac / 01 апреля 2019

0 голосов

2 ответов

Aws Glue Etl - нет модуля с именем dynamicframe

У меня проблема при попытке выполнить пример aws для Aws Glue Etl - локально после прочтения всех...

Julio / 01 апреля 2019

2 голосов

1 ответ

Эффективный способ проверить, есть ли NA в pyspark

У меня есть фрейм данных pyspark с именем df. Я хочу знать, содержат ли его столбцы NA, Мне все...

Manrique / 01 апреля 2019

1 голос

2 ответов

Ошибка PySpark: AnalysisException: «Не удается разрешить имя столбца

Я пытаюсь преобразовать весь df в один векторный столбец, используя df_vec = vectorAssembler

Anonymous Person / 01 апреля 2019

0 голосов

2 ответов

Преобразование метки времени строки в DateTime в pyspark

Разбор отметки времени «06/06/2019 7:30 AM» на отметку времени 24 часа IN pyspark Это схема My...

Hemant Urvey / 01 апреля 2019

2 голосов

3 ответов

Шаблон поиска Pyspark в одном столбце в другом столбце

У меня есть датафрейм с двумя столбцами, адресом и названием улицы. from pyspark.sql.functions...

Ali / 01 апреля 2019

0 голосов

1 ответ

PySaprk: преобразование временного представления в таблицу и сохранение в формате .CSV на локальном диске

Я создаю временное представление запроса JDBC в PySpark 2.4. Мой источник данных MS SQL Server 2017

pythondumb / 01 апреля 2019

1 голос

1 ответ

Агрегирование на основе диапазона из двух столбцов в пандах или pyspark

У меня есть конкретная проблема в моем проекте, которая требует вычисления среднего значения по...

Rengasami Ramanujam / 01 апреля 2019

0 голосов

2 ответов

Как изменить типы нескольких столбцов в pyspark?

Я просто изучаю pyspark.Я хочу изменить типы столбцов следующим образом: df1=df.select(df.Date

Feng Chen / 01 апреля 2019

0 голосов

1 ответ

Как мне вызвать функцию модульного теста в PySpark Code?

В моем коде PySpark есть модуль модульного тестирования, но я не уверен, как его выполнить. Вот мой...

Sidd / 01 апреля 2019

4 голосов

1 ответ

Matplotlib Plotting с использованием ноутбука AWS-EMR jupyter

Я пытаюсь нанести данные с помощью Matplotlib в блокнот jupyter на экземпляре AWS-EMR. Matplotlib...

bdfoz / 31 марта 2019

0 голосов

1 ответ

Как подключить реляционную базу данных в Glue ETL / Spark, используя ODBC-коннектор

Мне нужно получить данные из RDBMS, используя ODBC Connector в экосистеме AWS.AWS Glue не...

Umer / 31 марта 2019

0 голосов

1 ответ

Реструктуризация Pyspark DataFrame

Я решаю проблему регрессии.Для этого я сначала скопировал данные и применил регрессионную модель к...

Ayush Mishra / 31 марта 2019

0 голосов

0 ответов

во время работы spark-shell в режиме cmd. получая ошибку система не может найти указанный путь

Я установил Anaconda3 и Miniconda3. Установил hadoop и spark в windows 10. я сделал настройку пути...

python lover / 31 марта 2019

0 голосов

2 ответов

Как исправить: pyspark.sql.utils.IllegalArgumentException: неверный тип для функций столбцов?

Я новичок в pyspark и пытаюсь запустить ниже простых кодов. # create a RDD of LabeledPoint bcData =...

sheIsTrue / 31 марта 2019

0 голосов

1 ответ

Вложенный для петли распараллеливания в искре

Я пытаюсь распараллелить существующий алгоритм в искре (способом, который будет масштабироваться)....

izak / 31 марта 2019

0 голосов

1 ответ

Комплексная группировка данных в PySpark

Я пытаюсь получить агрегат со сложными требованиями и хочу написать общий код (не привязанный ни к...

Sidd / 31 марта 2019

1 голос

1 ответ

PySpark randomSplit против SkLearn Train Split - Случайный вопрос с семенами

Допустим, у меня есть pandas фрейм данных и применяется sklearn.model_selection.train_test_split с...

Odisseo / 31 марта 2019

0 голосов

1 ответ

Pyspark: я хочу вручную отобразить значения одного из столбцов в моем фрейме данных

У меня есть датафрейм в искре, и я хочу вручную отобразить значения одного из столбцов: Col1 Y N N...

Rishab Gupta / 31 марта 2019

0 голосов

0 ответов

Наиболее эффективный способ взрыва столбца данных Pyspark

У меня очень большой фрейм данных pyspark.Фрейм данных содержит два важных столбца: ключ и токены,...

Atorpat / 31 марта 2019

0 голосов

1 ответ

совокупность вектора в искре

Я новичок в спарк и мне нужна поддержка в решении проблемы ниже. У меня есть данные, как показано...

tanmay verma / 30 марта 2019

1 голос

1 ответ

Заполните пропущенные значения после группировки по столбцам

У меня есть данные, касающиеся района, названия улицы и почтового индекса. Я пытаюсь заполнить...

achandir / 30 марта 2019

0 голосов

0 ответов

Чем отличается pyspark.sql от pymongo?

PySpark может обрабатывать потоковые данные как RDD от kafka.Затем я хочу сохранить обработанный...

WeiYuan / 30 марта 2019

0 голосов

0 ответов

Как разделить кортежи, словари и списки

У меня есть rdd, который был сформирован путем присоединения к другим rdds. Это запутанно из-за...

Needhelp38 / 30 марта 2019