Вопросы с тегом апаш-искра

0 голосов

1 ответ

PySpark - доступ к имени и значению структурного поля при взрыве

Мои входные данные имеют следующую форму: [ { "id": 123, "embedded": {...

Mike / 21 мая 2019

1 голос

2 ответов

групповая идеальная стратегия в Spark Streaming

Я читаю данные, используя Spark Streaming из источника Kafka, откуда я создаю кадр данных со...

Sparker0i / 21 мая 2019

1 голос

1 ответ

Извлечение вложенного значения из кортежа RDD

РЕДАКТИРОВАНИЕ. Мне кажется, что он немного ржавый. Следующий фрагмент: import org.apache.spark.sql

thebluephantom / 21 мая 2019

3 голосов

1 ответ

значения кортежа для ключа в scala rdd

У меня есть rdd с парой ключ-значение в Scala. Я хочу сформировать rdd таким образом, чтобы оно...

datasure / 20 мая 2019

2 голосов

2 ответов

Как изменить основной порт веб-интерфейса при запуске свечи в локальном режиме

Я использую искру в локальном режиме (master = "local[*]", см. Код ниже).Как я могу...

bourbert / 20 мая 2019

0 голосов

0 ответов

Spark Self-join Оптимизация

Допустим, у меня есть users таблица user_id | name | etc с некоторыми пользовательскими данными и...

cyniphile / 20 мая 2019

0 голосов

1 ответ

Как получить доступ к файлу в Windows, используя Spark и winutils?

Я запускаю искру на окнах, используя winutils.В оболочке spark при попытке загрузить CSV-файл, но...

aiman / 20 мая 2019

0 голосов

1 ответ

Spark Dataframe Массив структур

У меня есть столбец в кадре данных, который является массивом [всегда одного элемента], который...

m1nkeh / 20 мая 2019

0 голосов

0 ответов

значение не отображается после фильтрации, но отображается в groupBy

У меня есть фрейм данных df, где одно из полей - name (строка). Когда я делаю: df

pawelty / 20 мая 2019

0 голосов

1 ответ

Дублирует при публикации данных в теме kafka с использованием spark-streaming

У меня есть приложение для потоковой передачи, которое потребляет данные из темы 1 и анализирует их...

user5463155 / 20 мая 2019

1 голос

1 ответ

Spark-Cassandra-Connector не работает для искровой отправки

Я использую спарк-кассандра-разъем для подключения к кассандре от искры. Я могу успешно...

braj / 20 мая 2019

0 голосов

2 ответов

Используйте RDD.foreach для создания Dataframe и выполнения действий над Dataframe в Spark Scala

Я пытаюсь прочитать конфигурационный файл в spark read.textfile, который в основном содержит мой...

MJ029 / 20 мая 2019

0 голосов

1 ответ

Конвертировать CSV в JSON для сопряжения RDD в Scala Spark

У меня есть данные CSV. Сначала я хочу преобразовать его в Json, а затем преобразовать в Pair RDD....

user1760952 / 20 мая 2019

0 голосов

1 ответ

Как обрезать данные и удалить все разделы из таблицы Hive с помощью Spark

Как я могу удалить все данные и удалить все разделы из таблицы Hive, используя Spark 2.3.0 truncate...

Joha / 20 мая 2019

0 голосов

1 ответ

Конвертируйте Spark Структурированный DataFrame в Pandas, используя pandas_udf

Мне нужно прочитать CSV-файлы в виде потока, а затем преобразовать это в pandas dataframe. Вот что...

Ashkan Rafiee / 20 мая 2019

4 голосов

2 ответов

Удалить пробелы между одним символом в строке

Я пытался удалить повторяющиеся слова из строки в scala. Я написал udf (код ниже), чтобы удалить...

Vaibhav / 20 мая 2019

0 голосов

1 ответ

конфигурация по умолчанию для 'spark.shuffle.consolidatefiles'

Каково поведение по умолчанию для Map Shuffling в более новой версии Spark? Я узнал, что...

Jason_typ / 20 мая 2019

2 голосов

1 ответ

Концепции Apache Spark + Delta Lake

У меня много сомнений, связанных с Spark + Delta. 1) Блок данных предлагает 3 слоя (бронза, серебро...

Eric Gabriel Bellet Locker / 19 мая 2019

0 голосов

1 ответ

org.apache.spark.SparkException: задача не сериализуема - Scala

Я читаю текстовый файл, и это файл фиксированной ширины, который мне нужно преобразовать в CSV.Моя...

Tarun Khaneja / 19 мая 2019

0 голосов

1 ответ

Невозможно прочитать локальный файл JSON с помощью spark submit

Я читаю файл JSON в Scala Spark, используя val df = spark.read.json (properties.getProperty...

Coder Me / 19 мая 2019

1 голос

0 ответов

PySpark: добавление столбца в RowMatrix

В настоящее время я пытаюсь увеличить ранг RowMatrix в PySpark с каждой итерацией в некотором...

Michael / 19 мая 2019

1 голос

0 ответов

Как понять максимиграции в pregel реализации Apache GraphX

Официальное объяснение состоит в том, что maxIterations будет использоваться для не сходящихся...

Prometheus Ryan / 19 мая 2019

0 голосов

0 ответов

Интеграция Spark Kafka и запуск в сети

Я хочу интегрировать потоковую передачу искры с kafka и запускать в intellij Моя kafka работает...

akash jayaweera / 19 мая 2019

0 голосов

0 ответов

NumberFormatException генерируется, когда передается дата в виде lowerBound / upperBound в spark-sql-2.4.1v с ojdbc14.jar?

Я передал lowerBound / upperBound, как показано ниже Dataset<Row> ss = ora_df_reader

Shyam / 19 мая 2019

0 голосов

2 ответов

Как преобразовать массивоподобную строку в массив в spark-dataframe (Scala api)?

У меня следующий искровой фрейм: published data 2019-05-15T10:37:22+00:00...

Eugene / 19 мая 2019