Вопросы с тегом апаш-искра

0 голосов

0 ответов

YARN выделяет только 1 исполнителя, хотя динамическое выделение памяти отключено

У меня есть настройка кластера с одним драйвером и двумя исполнителями, работающими в режиме пряжи

Girish Gupta / 10 февраля 2019

0 голосов

0 ответов

Дата последнего обновления паркета

Мои искры. Фреймы данных импортируются из файлов паркета в ADLS.Есть ли способ найти дату...

Dan / 10 февраля 2019

0 голосов

2 ответов

Как интерполировать столбец внутри сгруппированного объекта в PySpark?

Как вы интерполируете фрейм данных PySpark в сгруппированные данные? Например: У меня есть фрейм...

penguin / 10 февраля 2019

0 голосов

1 ответ

Как я могу отфильтровать искровой СДР по результатам сопоставления?

Мне нужно отфильтровать СДР по результату сопоставления.Первоначально у меня есть СДР диагноза:...

Ekaterina Tcareva / 09 февраля 2019

0 голосов

2 ответов

Как спарк интерпретирует тип столбца в редукторе

У меня есть следующая таблица DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME count United States Romania 15...

Manu Chadha / 09 февраля 2019

0 голосов

2 ответов

Каковы некоторые полезные случаи использования метода Reduce в наборе данных

Какие могут быть полезные случаи использования метода reduce в Dataset. У меня есть следующая...

Manu Chadha / 09 февраля 2019

0 голосов

2 ответов

Pyspark - Выберите пользователей, которых видели как минимум 2 дня подряд

У меня есть фрейм данных dataframe_actions с полями: user_id, action, day.user_id уникален для...

Qubix / 09 февраля 2019

0 голосов

0 ответов

Задание Spark выполняется из CLI, но не выполняется при запуске из рабочего процесса Oozie в том же кластере

Моя команда Spark / Scala: spark-submit --class <package_name>.TestConfig --master yarn...

Ankur / 09 февраля 2019

0 голосов

1 ответ

Почему нет приемника JDBC Spark Streaming?

Я предлагаю неплохо обработать огромную таблицу JDBC, читая строки партиями и обрабатывая их с...

Aleks Ya / 09 февраля 2019

0 голосов

1 ответ

как выбрать только определенный столбец из набора данных после его сортировки

У меня есть следующая таблица: DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME count United States Romania 15...

Manu Chadha / 09 февраля 2019

0 голосов

1 ответ

Apache Avro как встроенный источник данных в Apache Spark 2.4

Я недавно прочитал эту статью и опробовал пример, но когда я запускаю val usersDF = spark.read

Achilleus / 09 февраля 2019

0 голосов

0 ответов

Spark Альтернатива SubQuery с использованием той же таблицы

Этот пост о том, как неэффективно спарк присоединение таблицы с подзапросом с использованием той же...

Doug T / 09 февраля 2019

0 голосов

0 ответов

Понимание окна с водяным знаком в Apache Spark Структурированная потоковая передача

У меня одно недоразумение по поводу документов Spark Structured Streaming.Я прочитал это много раз

user3672628 / 08 февраля 2019

0 голосов

2 ответов

В чем разница между определением Spark Master в CLI и определением «master» в коде приложения Spark?

В чем разница между Spark-submit "--master", определенным в CLI, и кодом приложения spark,...

Angelito / 08 февраля 2019

0 голосов

0 ответов

Spark - эффективное хранение категориальных переменных

У меня есть фрейм данных с миллиардами записей.У меня есть несколько строковых столбцов, которые...

parasu / 08 февраля 2019

0 голосов

2 ответов

Таблицы не найдены в Spark SQL после перехода с EMR на AWS Glue

У меня есть задания Spark в EMR, и EMR настроен на использование каталога Glue для метаданных Hive...

wrschneider / 08 февраля 2019

0 голосов

1 ответ

Как запустить скрипт Python Spark с конкретными банками

Мне нужно запустить скрипт python на экземпляре EMR, используя pyspark для запроса DynamoDB.Я могу...

Chinmaya B / 08 февраля 2019

0 голосов

0 ответов

Вычислить стоимость StreamingKMeans

Мой код использует класс StreamingKMeans для кластеризации потоковых данных из kafka.Я хочу...

andrea5 / 08 февраля 2019

0 голосов

1 ответ

Разделение сообщений Кафки построчно в Spark структурированной потоковой передаче

Я хочу прочитать сообщение из темы Кафки в моей работе Spark Structured Streaming во фрейм данных

Atanu chatterjee / 08 февраля 2019

0 голосов

1 ответ

Spark 2.3 Утечка памяти с большими запросами SparkSQL

Запуск кластера CDH 5.14.4 вместе с CDS Spark 2.3 Release 4.При отправке довольно большого задания...

Guru / 08 февраля 2019

0 голосов

1 ответ

Как преобразовать RDD [(String, Iterable [VertexId])] в DataFrame?

Я создал RDD из Graphx, который выглядит следующим образом: val graph = GraphLoader

Aamir / 08 февраля 2019

0 голосов

1 ответ

Получение значений столбца Row как их типа Scala, а не Column

Я пытаюсь добиться вывода значений для определенных столбцов DataFrame с учетом значений каждой...

Lenny D. / 08 февраля 2019

0 голосов

2 ответов

Можно ли сделать перераспределение после использования partitionBy в spark DF?

Я задаю этот вопрос, потому что, если я укажу перераспределение как 5, тогда все мои данные (>...

Arun / 08 февраля 2019

0 голосов

1 ответ

Почему я не таблица, чтобы получить отсортированный результат в select?

У меня есть следующая таблица: DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME count United States Romania 15...

Manu Chadha / 08 февраля 2019

0 голосов

1 ответ

Функции pandas не работают при использовании pyspark в jupyter под Ubuntu на виртуальной машине

Я изучаю pyspark.Итак, вот как я создаю среду: 1. ubuntu in virtual machine 2. downloading spark 2

Feng Chen / 08 февраля 2019