Вопросы с тегом апаш-искра

0 голосов

0 ответов

Spark Structured Streaming с использованием S3 в качестве источника данных

У меня есть данные, которые постоянно передаются в корзину S3. Я хочу настроить приложение...

Sherif Hamdy / 25 августа 2018

0 голосов

1 ответ

Не удалось найти запись «KafkaClient» в конфигурации JAAS. Системное свойство 'java.security.auth.login.config' не установлено

Я пытаюсь подключиться к Kafka с помощью потоковой структурированной искры. Это работает:...

Chris Snow / 25 августа 2018

0 голосов

1 ответ

равномерно разделить RDD в искре

У меня есть текстовый файл в HDFS, который содержит около 10 миллионов записей. Я пытаюсь прочитать...

Sudharnath / 25 августа 2018

0 голосов

2 ответов

Условная агрегация Spark DataFrame

Я хотел бы понять, как лучше всего выполнить агрегацию в Spark в этом сценарии: import sqlContext

Giorgio / 25 августа 2018

0 голосов

1 ответ

Фильтрация данных между двумя раза в pyspark

У меня есть датафрейм, импортированный из CSV с двумя столбцами (среди прочих): дата и время.Date -...

Raiden616 / 25 августа 2018

0 голосов

1 ответ

параллельный спарк на итераторе с функцией

У меня есть итератор, который работает с последовательностью документов WARC и выдает измененные...

Akshansh Gupta / 25 августа 2018

0 голосов

1 ответ

Обновления и Вставки

Мы получаем почасовые данные JSON в HDFS.Размер данных будет примерно 5-6 ГБ в час. , когда...

Varshini / 25 августа 2018

0 голосов

1 ответ

Как исправить исключение «Литералы типа« E »в настоящее время не поддерживаются» при применении regex_replace к фрейму данных в Scala?

У меня есть фрейм данных, созданный из чтения таблицы RDBMS, как показано ниже: val dataDF = spark

Metadata / 25 августа 2018

0 голосов

3 ответов

Airflow и Spark / Hadoop - уникальный кластер или один для Airflow, а другой для Spark / Hadoop

Я пытаюсь выяснить, как лучше всего работать с Airflow и Spark / Hadoop.У меня уже есть кластер...

Henrique Goulart / 25 августа 2018

0 голосов

1 ответ

Ошибка инициализации SparkContext при использовании SPARK-SHELL в автономном режиме искры

Я установил Scala. Я установил Java 8. Также все переменные окружения были установлены для spark,...

Vibhor Gupta / 24 августа 2018

0 голосов

0 ответов

Чтение ORC Spark DataFrames со специальными символами

Я загружаю некоторые таблицы ORC из S3, но я полагаю, что я сталкиваюсь с некоторыми проблемами с...

kz3r / 24 августа 2018

0 голосов

1 ответ

Scala - Условная замена значения столбца фрейма данных

DataFrame 1 - это то, что у меня есть сейчас, и я хочу написать функцию Scala, чтобы DataFrame 1...

Allen / 24 августа 2018

0 голосов

1 ответ

Spark - возвращает значение идентификатора из SQL Server из Spark 2.3

Мне нужно вставить строку в таблицу SQL из Spark, запущенного в Azure Databricks, и узнать, есть ли...

user3241068 / 24 августа 2018

0 голосов

1 ответ

Предварительная группировка таблиц в HDFS и чтение в Spark с нулевым перемешиванием

Контекст У меня есть две таблицы, к которым я присоединяюсь / объединяюсь как часть моих искровых...

naj / 24 августа 2018

0 голосов

0 ответов

URL Spark Master является локальным

Я пытаюсь запустить автономный кластер Spark. На моем главном узле я запустил: ./sbin/start-master

Piyush Shrivastava / 24 августа 2018

0 голосов

1 ответ

Причины: java.util.NoSuchElementException: ошибка None.get при использовании агрегата перед потоковым статическим объединением в структурированной потоковой передаче.

import org.apache.spark._ import org.apache.spark.rdd._ import org.apache.spark.storage.StorageLevel

VikAsh KuMar / 24 августа 2018

0 голосов

1 ответ

В Spark ML, почему подгонка StringIndexer к столбцу с миллионами различных значений приводит к ошибке OOM?

Я пытаюсь использовать функцию Spark StringIndexer для столбца, содержащего около 15 000 000...

Interfector / 24 августа 2018

0 голосов

1 ответ

Как объединить данные из фрейма данных

У меня есть одна таблица с большим количеством типов данных, и у некоторых данных есть одна...

Alexandre Leal / 06 июля 2018

0 голосов

2 ответов

Как выполнить выражение столбца в искре без фрейма

Можно ли как-нибудь оценить выражение Column, если я использую только Literal (без столбцов данных)

Kaushal / 06 июля 2018

0 голосов

1 ответ

Scala: разделение данных, поступающих от kafka через DStream

Я получаю данные от кафки в виде {"email":"test@example"...

Anonymous / 06 июля 2018

0 голосов

1 ответ

Модульный тест Scala: как проверить возвращенный RDD

Я написал метод для фильтрации дубликатов из RDD и решил написать модульный тест для метода. Вот...

samba / 06 июля 2018

0 голосов

1 ответ

Выходите из медленной карты Spark по таймауту, но сохраняйте результаты до сих пор

Я сопоставляю SpD RDD с очень дорогой функцией (потенциально десятки секунд на строку). Возможно,...

DNA / 06 июля 2018

0 голосов

1 ответ

Как преобразовать список Java <Date>в набор данных Spark <Row>

У меня есть список дат, которые я хочу преобразовать в набор искровых данных, чтобы использовать их...

Crypto / 06 июля 2018

0 голосов

1 ответ

ClassNotFound при отправке Spring-boot-fat-jar на спарк

когда я собираю толстую банку с помощью пружинной загрузки, ее имя sparker4m-0.0.1.jar И я "подаю...

W.X / 06 июля 2018

0 голосов

1 ответ

План выполнения Spark SQL в Spark 2.3 слишком медленный

Я обновил нашу систему HDP (Hortonworks Data Platform) с 2.5.2 до новейших версий (2.6.5). Все...

Phong Pham / 06 июля 2018