Вопросы с тегом апаш-искра

0 голосов

0 ответов

Каковы альтернативы для запуска приложения Spark в режиме кластера?

Я пишу приложение Spark с использованием Scala. Мое приложение упаковано в файл JAR с помощью Maven...

samara / 11 мая 2019

0 голосов

1 ответ

время вставки этой записи в ваши новые данные при изменении таблицы (вставка новых данных) в куст

Пример таблицы Hive: id|year 1|1990 Добавлены новые данные для той же таблицы: id|year 2|2010 но...

shashidhar reddy / 11 мая 2019

0 голосов

0 ответов

py_spark EMRActivity в конвейерах передачи данных py_zip завершается ошибкой

Я выполняю шаг py_spark, инициированный внутри EMRActivity в конвейерах данных AWS. На данный...

ilijaluve / 11 мая 2019

3 голосов

1 ответ

Как получить СЧЕТ писем для каждого идентификатора в Scala

Я использую этот запрос в SQL, чтобы узнать, сколько user_id имеют более одного электронного письма

KurryF / 10 мая 2019

0 голосов

1 ответ

Проблема версии Джексона в потоковой передаче с искрой

При использовании spark structured streaming с spark-sql-kafka-0-10_2.11 я видел...

javadba / 10 мая 2019

1 голос

1 ответ

Преобразовать строку во вложенный JSON в Spark

Я пытаюсь преобразовать строку во вложенную структуру JSON в Spark. Строки загружаются из файла...

Christophe / 10 мая 2019

0 голосов

2 ответов

что является заменой для Apache spark в сервисах IBM watson studio?

Я создавал механизм рекомендаций в студии IBM Watson, для которого мне нужно было добавить сервис...

Veer Singh / 10 мая 2019

1 голос

0 ответов

Ошибка отправки искры при сбое пряжи с ошибкой «Несоответствие разрешений для вызывающей стороны»

Я пытаюсь отправить свое искровое задание на пряжу, но оно продолжает сбой с сообщением:...

Y0gesh Gupta / 10 мая 2019

0 голосов

0 ответов

Как разобрать список значений из столбца файла в Spark SQL DataFrame

Я все еще новичок в scala, у меня есть требование извлечь первый раздел из каждой таблицы в улье. Я...

Karthik Ramachandran / 10 мая 2019

0 голосов

0 ответов

Обогатите Spark Streaming данными из HDFS

Я использовал потоковую обработку Spark 2.1 для обработки данных о событиях от Kafka. После...

Liz / 10 мая 2019

0 голосов

2 ответов

Преобразование кадра данных в массив структур имен столбцов и значений

Предположим, у меня есть такой фрейм данных val customer = Seq( ("C1", "Jackie...

Srinivas / 10 мая 2019

1 голос

0 ответов

Не удалось найти источник данных: kafka

Я читал этот пост, https://nycdatascience.com/blog/student-works/yelp-recommender-part-2/, и...

May Y / 10 мая 2019

0 голосов

2 ответов

удалить последний символ из строки

Я пытаюсь создать новый столбец данных (b), удаляя последний символ из (a).Столбец a - это строка...

David / 10 мая 2019

0 голосов

0 ответов

Разъем Spark Hbase не работает в параллельном режиме?

Я пытаюсь использовать коннектор Hortonworks hbase для spark 2.0 для работы с hbase (https://github

William R / 10 мая 2019

0 голосов

1 ответ

Чтение, преобразование и запись данных в каждом разделе в DataFrame

Язык - Scala Версия Spark - 2,4 Я новичок в Scala и Spark. (Я из Python, поэтому вся экосистема JVM...

Vijayant / 10 мая 2019

0 голосов

0 ответов

Исполнитель закончил с убитым состоянием exitStatus 1

После запуска мастера и рабочего на одном компьютере ... spark-class org.apache.spark.deploy.master

Christophe / 10 мая 2019

2 голосов

1 ответ

Команда Sqoop с параметром --query в Scala с использованием Process ("").! не работает

Я пытаюсь запустить команду Sqoop с параметром - query в оболочке Scala, используя...

Sourav Das / 10 мая 2019

0 голосов

1 ответ

Метод не реализован исключение на метод Take в Microsoft.Spark

Я пытаюсь настроить спарк с новой библиотекой Microsoft.Spark.Метод DataFrame.PrintSchema работает...

Jan-Wiebe / 10 мая 2019

0 голосов

1 ответ

Недостаточно места для кэширования данных в памяти

У меня есть требование прочитать файл в приложении потоковой передачи, и для его кэширования...

Indira / 10 мая 2019

1 голос

1 ответ

Я просто хочу дать набору данных с миллиардами данных тег сортированного номера строки, что делать в Spark?

У меня есть миллиарды данных в формате hdf, теперь я хочу загрузить данные с помощью Spark, а затем...

Shawn.X / 10 мая 2019

4 голосов

2 ответов

Улей запрос, чтобы найти количество недель в середине

У меня есть таблица, как показано ниже id week count A100 201008 2 A100 201009 9 A100 201010 16...

a m Sreekanth / 10 мая 2019

1 голос

2 ответов

Я получаю результаты с запросом SQL, но получаю сообщение об ошибке с помощью spark.Sql

accountBal.createOrReplaceTempView("accntBal") var finalDf = spark.sql( " SELECT...

Ga999 / 10 мая 2019

2 голосов

1 ответ

Spark Scala groupBy (cols) .agg (20 функций суммирования), как использовать map для упрощения 20 функций agg?

Допустим, список из Seq("a", "b", "c") и eventDF, eventDF

seninus / 10 мая 2019

0 голосов

0 ответов

Процесс записи в внешнюю таблицу улья

Я хочу иметь внешнюю таблицу Partitioned Hive, чтобы только данные внешнего процесса искры...

user1888243 / 10 мая 2019

1 голос

0 ответов

Spark dataframe writeStream forEach не записывает все строки

Мой источник данных - Кафка, и я читаю данные из Кафки следующим образом: var df = spark

Sparker0i / 10 мая 2019