Вопросы с тегом апаш-искра

0 голосов

1 ответ

Функция Spark Map для обновления столбцов

Scala 2.11 здесь.У меня есть следующая таблица input DB: [input] === id BIGINT UNSIGNED NOT NULL,...

hotmeatballsoup / 10 мая 2018

0 голосов

2 ответов

Невозможно получить рейтинги для работы

Я довольно плохо знаком с scala и spark, но у меня большой опыт работы с Python и другими языками.У...

Wired604 / 10 мая 2018

0 голосов

1 ответ

Объединение данных из нескольких RDD с использованием Java

У меня есть 3 CSV-файла, как показано ниже, я пытаюсь создать RDD и объединить RDD в окончательный...

dcu / 10 мая 2018

0 голосов

1 ответ

понимание зависимости искры

Я пытаюсь понять, как работает spark с Maven, у меня следующий вопрос: нужно ли мне установить...

Miguel A. Friginal / 10 мая 2018

0 голосов

1 ответ

Динамический раздел Spark 2.3. Не работает на S3 AWS EMR 5.13.0

Динамическое разбиение, введенное в Spark 2.3, похоже, не работает на AWS EMR 5.13.0 при записи в...

David Costa Faidella / 10 мая 2018

0 голосов

0 ответов

Spark Direct Stream Кафка порядок событий

У меня есть вопрос относительно чтения данных с помощью Spark Direct Streaming (Spark 1.6) из Kafka...

bmcristi / 10 мая 2018

0 голосов

0 ответов

Размер результата Spark слишком велик - используйте

мои входные данные хранятся в Cassandra, и я использую таблицу, первичным ключом которой является...

Marious / 10 мая 2018

0 голосов

1 ответ

Spark Streaming - потоковые сообщения в формате json в DataFrame

Я пытаюсь читать темы Кафки через Apache Spark Streaming и не могу понять, как преобразовать данные...

thedataguy / 10 мая 2018

0 голосов

1 ответ

как лучше структурировать линейное программирование с помощью Spark

Мне нужно решить большое количество (от 2 до 10 миллионов) очень похожих небольших (может быть, 100...

Luis Sisamon / 10 мая 2018

0 голосов

1 ответ

Как получить идентификаторы работы или приложения в SparkSession?

Я знаю, как получить jobID / ApplicationID от sparkContext.Есть ли способ получить jobID /...

John Hass / 10 мая 2018

0 голосов

1 ответ

toDF не является членом org.apache.spark.rdd.RDD

Я пытался запустить эту программу spark в оболочке spark, но она выдает эту ошибку, я уже...

Bhaskar Das / 10 мая 2018

0 голосов

1 ответ

Исключение при выполнении сканирования hbase

Я пробовал пример распределенного сканирования с использованием искры hbase . Мой простой код...

Mahesha999 / 10 мая 2018

0 голосов

1 ответ

Аккумулятор, я всегда получаю 0 значение

Я использую LongAccumulator для подсчета количества записей, которые я сохраняю в Cassandra. object...

Guille / 10 мая 2018

0 голосов

2 ответов

Удаление дубликатов записей с использованием оконной функции в Spark Scala

Или просто для простоты понимания, у меня есть фрейм данных. DataPartition TimeStamp OrganizationID...

SUDARSHAN / 10 мая 2018

0 голосов

1 ответ

Spark SQL 2.3 - медленные результаты поиска для LIKE '% message%'

Я получаю логи в формате log4j, обрабатываю их и сохраняю в Spark. Я не в кластерной или...

kumar / 10 мая 2018

0 голосов

1 ответ

Левое внешнее объединение для нерегламентированных записей для двух кадров данных в искровой скале

У меня есть два кадра данных. Фрейм данных один...

Atharv Thakur / 10 мая 2018

0 голосов

1 ответ

Pyspark Inferring Часовой пояс по местоположению

Я пытаюсь определить часовой пояс в PySpark, учитывая долготу и широту события. Я наткнулся на...

tmrlvi / 10 мая 2018

0 голосов

2 ответов

Удаление данных из паркета приводит к их * размеру * - почему?

Недавно мы обнаружили, что из-за проблемы в нашем ETL наши паркетные блоки содержали повторяющиеся...

Vitaliy / 10 мая 2018

0 голосов

1 ответ

Сколько должно быть минимального объема памяти драйвера в приложении spark?

В spark doc он показывает, что память по умолчанию составляет 1 ГБ, можно установить менее 1 ГБ. Я...

Devendra Kumar / 10 мая 2018

0 голосов

0 ответов

Анализ временных рядов с искрой

Я работаю над проектом, который генерирует 40-50 Гб данных временных рядов каждый день. Phase Time...

Amin Mohebi / 10 мая 2018

0 голосов

2 ответов

Как найти точные и неточные совпадения между двумя фреймами данных?

У меня есть два кадра данных. df1 +--------+------------------- |id | amount | fee | |1 | 10.00 | 5

Nick01 / 10 мая 2018

0 голосов

1 ответ

Как генерировать строки в зависимости от значения столбца в spark?

предположим, если у меня есть один столбец с одной строкой +---+ | id| +---+ | 4| +---+ тогда как...

survya / 10 мая 2018

0 голосов

0 ответов

Подключение от Spark к снежинке

Я пишу это не для того, чтобы задать вопрос, а для того, чтобы поделиться знаниями. Я использовал...

Chao Mu / 10 мая 2018

0 голосов

1 ответ

Добавить одну строку из одного набора данных в другой набор данных в Spark Scala

Существует два набора DataFrame, один из которых «Обучающий набор», другой - «Тестовый набор». Что...

Cheolwon_Jang / 10 мая 2018

0 голосов

2 ответов

Имя столбца датафрейма не обновляется с использованием псевдонима

Я делаю некую агрегацию на созданном мною кадре данных. Вот шаги val initDF = spark.read

Rajesh Ravindran / 10 мая 2018