Вопросы с тегом pyspark

0 голосов

1 ответ

Как быстро найти прямоугольник, содержащий его для каждой точки в pyspark

У меня есть фрейм данных с именем grid_df, который содержит много координат прямоугольников. И еще...

giser_yugang / 18 апреля 2019

0 голосов

0 ответов

Изменить параметры приложения для приложения Spark Streaming

У меня есть приложение Spark Streaming, реализованное с помощью PySpark. Я не использую...

guscht / 18 апреля 2019

0 голосов

0 ответов

Архитектура отслеживаемой регистрации EMR pyspark

Я нахожусь в процессе создания приложения pyspark, которое часто терпит неудачу и имеет много...

A.B / 18 апреля 2019

1 голос

1 ответ

Не могу добавить pyspark в jupyter Google DataProc

У меня есть ноутбук Jupyter на DataProc, и мне нужна банка для выполнения какой-либо работы. Мне...

user2830451 / 18 апреля 2019

1 голос

0 ответов

Как проверить, больше или меньше n последовательных событий из потока kafka, чем пороговое ограничение

я новичок в писпарк. Я написал программу pyspark для чтения потока kafka с помощью оконной операции

Nagesh / 18 апреля 2019

0 голосов

2 ответов

pyspark: почему кеш такой медленный

когда я запускаю import time start_time = time.time() print(df_join.count()) end_time = time.time()...

user1871528 / 18 апреля 2019

0 голосов

1 ответ

pyspark: получить столбцы на основе других записей

У меня есть фрейм данных, который выглядит следующим образом membershipAccountNbr...

iratelilkid / 18 апреля 2019

0 голосов

0 ответов

Каков локальный путь к каталогу для Databricks?

Я работаю внутри Databricks и пытаюсь читать и записывать файлы из моего личного хранилища ноутбука...

ee8291 / 18 апреля 2019

0 голосов

1 ответ

Чтение данных с красного смещения Amazon в Spark 2.4

Раньше мы считывали данные в Spark 2.3, используя блоки данных со следующим кодом инициализации...

Prakhar / 18 апреля 2019

0 голосов

0 ответов

Как обработать большую коллекцию Монго, которая имеет много необязательных полей (динамическая схема) в Pyspark

Я обрабатываю коллекцию Mongo, которая содержит тысячи элементов, каждый из которых является...

PlAnTSnByTeS / 18 апреля 2019

0 голосов

1 ответ

Как разбить строки фрейма данных pyspark на основе списка номеров строк?

Я создал фрейм данных pyspark, который образно выглядит так: - >>> df f1 | f2 | ... | fn |...

venom8914 / 17 апреля 2019

0 голосов

1 ответ

Разделение диапазона в Pyspark

Скажем, у меня есть набор данных с 1 000 000 идентификаторов.Как бы я пошел на разделение по...

j doe / 17 апреля 2019

0 голосов

1 ответ

Spark SQL на AWS Glue: pyspark.sql.utils.AnalysisException

Я использую Spark SQL в скрипте AWS Glue для преобразования некоторых данных в S3.Вот логика...

moron / 17 апреля 2019

0 голосов

1 ответ

DataPrame pyspark транспонировать несколько столбцов на основе суффикса столбца

имеют фрейм данных (столбцы с до e имеют до 15 вариантов) cola, colb, colc_1, cold_1, cole_1,...

babz / 17 апреля 2019

0 голосов

1 ответ

вопрос инструмента искры grep

Я пишу инструмент grep в pyspark, который берет слово в командной строке, ищет текстовый файл и...

Alpha / 17 апреля 2019

0 голосов

1 ответ

Преобразование нескольких столбцов спаркфрейма в один столбец с типом списка

У меня есть фрейм данных Pyspark, как показано ниже. Time A B C D 06:37:14 2 3 4 5 И я хочу...

amit panda / 17 апреля 2019

0 голосов

1 ответ

Spark Streaming Job работает очень медленно

Я выполняю задание потоковой передачи искры в моем регионе, и для одной партии требуется...

Nagesh / 17 апреля 2019

2 голосов

1 ответ

Не могу прочитать авро в DataProc Spark со спарк-авро

У меня есть кластер в Google DataProc (с изображением 1.4), и я хочу читать avro файлы с помощью...

user2830451 / 17 апреля 2019

0 голосов

3 ответов

Есть ли в pySpark возможность поиска строки в двух отдельных словах?

Я ищу способ найти в python spark строку с двумя отдельными словами.например: IPhone x или Samsun...

ben othman zied / 17 апреля 2019

2 голосов

1 ответ

Ошибка версии Python в Jupyter Google DataProc

Я создал кластер DataProc с инициализацией Jupyter. Версия изображения, которую я использовал - 1.4

user2830451 / 17 апреля 2019

1 голос

2 ответов

Как читать разделенную таблицу улья через pyspark

Новичок в программировании и у него возникли сомнения относительно метода чтения секционированных...

Shubham Pandey / 17 апреля 2019

0 голосов

1 ответ

Отладка ошибки в "Statistics.corr" в библиотеке mlib

Я хотел сравнить производительность двух методов корреляции, Пирсона и Спирмена для большого набора...

R_Bd / 16 апреля 2019

0 голосов

2 ответов

Конвертируйте два столбца в фрейме данных pyspark в один словарь Python

У меня есть фрейм данных pyspark, в котором я хочу использовать два его столбца для вывода словаря....

Cards14 / 16 апреля 2019

0 голосов

0 ответов

Контейнер работает за пределами памяти - ПОЛУЧЕННЫЙ СИГНАЛ 15: SIGTERM

Я реализовал прогнозирование модели в рабочем процессе oozie, и на шаге 3 я получил ошибку...

vjrock99 / 16 апреля 2019

0 голосов

1 ответ

Как подключиться к базе данных Greenplum удаленно из PySpark в Jupyter Notebook?

Я пытаюсь подключить PySpark (с помощью Jupyter Notebook) к экземпляру базы данных Greenplum на...

ashkrelja / 16 апреля 2019