Вопросы с тегом apache-искра

1 голос

2 ответов

Как читать разделенную таблицу улья через pyspark

Новичок в программировании и у него возникли сомнения относительно метода чтения секционированных...

Shubham Pandey / 17 апреля 2019

0 голосов

0 ответов

Проблема настройки ввода и вывода в Spark с помощью векторного ассемблера (Java)

У меня есть набор данных с 5408 столбцами, все они напечатаны так: _c0 | _c1 | _c2 | _c3 | _c4 |...

Karencia Gárate / 16 апреля 2019

0 голосов

1 ответ

Изучите план выполнения искры, количество этапов и т. Д.

Мне нужно оптимизировать мой код pyspark, чтобы план выполнения был как можно более параллельным; Я...

DPColombotto / 16 апреля 2019

0 голосов

0 ответов

Почему saveAsNewAPIHadoopDataset не работает и не возвращает никаких ошибок при использовании PySpark, Spark Streaming и Hbase?

Я пытаюсь настроить поступление данных Кафки в реальном времени в HBase через PySpark в...

thedbogh / 16 апреля 2019

0 голосов

1 ответ

Как я могу отфильтровать RDD по длине линий в наборе данных.?

Я хочу отфильтровать СДР, созданный из набора данных на основе длина линии Использование: Pyspark...

Sowmya Kudva / 16 апреля 2019

0 голосов

0 ответов

Pyspark или Python: предложения необходимы

Я в некотором замешательстве при принятии решения о задаче, которую я выполняю. Это то, что мне...

knowone / 16 апреля 2019

0 голосов

1 ответ

Есть ли в любом случае, чтобы увидеть, если время в интервале?

Я работаю с pyspark, и у меня есть несколько дат с типом STRING, например: DATE 2019-03-01 18:04:42...

MaBe Moreira / 15 апреля 2019

2 голосов

1 ответ

Вызов другой пользовательской функции Python из UDF Pyspark

Предположим, у вас есть файл, назовем его udfs.py и в нем: def nested_f(x): return x + 1 def...

Ferrard / 15 апреля 2019

1 голос

0 ответов

Вставить записи в таблицу Spark SQL

Я создал таблицу Spark SQL, как показано ниже, с помощью блоков данных Azure: create table...

msmahasm / 15 апреля 2019

0 голосов

0 ответов

Spark Straming и подписка на несколько тем

У меня есть две базы данных postgres, подключенные к kafka с помощью jdbc-коннектора, поэтому у...

Claudio Melis / 15 апреля 2019

0 голосов

1 ответ

Как настроить отдельные конфигурации Spark для локального запуска примеров свечей MLlib?

Я хочу запустить Примеры Spark MLlib локально на моем ПК (я думаю, что он называется автономным). Я...

Community Ans / 15 апреля 2019

1 голос

2 ответов

Столбец Pyspark делится на промежуточные итоги, сгруппированные по другому столбцу.

Моя проблема похожа на это и это .В обоих сообщениях показано, как разделить значение столбца на...

Ali / 14 апреля 2019

0 голосов

0 ответов

Как равномерно распределить разделы между исполнителями Spark в кластере Kubernetes?

В настоящее время я разрабатываю прототип для параллельной реализации SGD в PySpark. Все это...

ed2412 / 12 апреля 2019

0 голосов

1 ответ

Динамически фильтровать свечи зажигания во время выполнения

Мне нужно создать оператор фильтра искры, который фильтрует список столбцов, который динамически...

Francis Drumm / 12 апреля 2019

3 голосов

1 ответ

Сохранение результата DataFrame show () в строку в pyspark

Я хотел бы захватить результат show в pyspark, аналогично здесь и здесь . Мне не удалось найти...

Kenny / 12 апреля 2019

0 голосов

1 ответ

Как я могу преобразовать вложенный JSON-преобразованный массив данных в словарь без использования панд?

У меня есть json, который имеет следующий тип: {"key1":{"keyA":"val1"...

vsr / 12 апреля 2019

0 голосов

1 ответ

У меня есть ниже набор данных, и я хочу изменить эти данные в целевой выходной набор данных на основе количества повторений

У меня есть набор данных ниже, и я хочу делать повторения моих строк столько раз и назначить им...

Deepak Sharma / 12 апреля 2019

0 голосов

3 ответов

PySpark - эффективный способ найти столбцы DataFrame с более чем одним отдельным значением

Мне нужен эффективный способ перечисления и удаления одинарных столбцов в Spark DataFrame (я...

Trademark / 12 апреля 2019

1 голос

0 ответов

AttributeError: у объекта 'property' нет атрибута 'format'

Хотите подключить mysql к искре. Это показывает эту ошибку: Traceback (последний вызов был...

Rohan / 12 апреля 2019

0 голосов

1 ответ

тест на значение позиции потока Кафки

Я хочу проверить значение позиции потока Кафки, если равное значение имеет, например, "2", затем...

aigle_5 / 11 апреля 2019

1 голос

0 ответов

PySpark - добавить новый столбец после агрегирования

Я пытаюсь сгруппировать столбцы и взять минимум.Затем используйте минимальное значение, чтобы...

user1584253 / 11 апреля 2019

0 голосов

0 ответов

Нет аренды /my/hdfs/file/path.json: файл не существует

Я использую Spark Structured Stream для чтения сообщения от Kafka. Сообщения содержат путь к...

ArmoArmo / 11 апреля 2019

1 голос

1 ответ

from_json SQL-функция Pyspark: значение по умолчанию для не найденных ключей?

Я использую функцию from_json Pyspark SQL, как обычно, например ::100100 >>> import...

frb / 11 апреля 2019

0 голосов

1 ответ

Как получить транспонирование динамического набора данных для примера ввода ниже, используя Spark и Java

У меня есть один набор данных, и я хочу переставить столбцы (динамическое число столбцов) в две...

Deepak Sharma / 11 апреля 2019

0 голосов

1 ответ

Запишите результаты Google Api в озеро данных с помощью Databricks

Я получаю данные об использовании пользователя от API администратора отчетов об использовании...

Rodney / 11 апреля 2019