Я пишу приложение Spark с использованием Scala. Мое приложение упаковано в файл JAR с помощью Maven...
Пример таблицы Hive: id|year 1|1990 Добавлены новые данные для той же таблицы: id|year 2|2010 но...
Я выполняю шаг py_spark, инициированный внутри EMRActivity в конвейерах данных AWS. На данный...
Я использую этот запрос в SQL, чтобы узнать, сколько user_id имеют более одного электронного письма
При использовании spark structured streaming с spark-sql-kafka-0-10_2.11 я видел...
Я пытаюсь преобразовать строку во вложенную структуру JSON в Spark. Строки загружаются из файла...
Я создавал механизм рекомендаций в студии IBM Watson, для которого мне нужно было добавить сервис...
Я пытаюсь отправить свое искровое задание на пряжу, но оно продолжает сбой с сообщением:...
Я все еще новичок в scala, у меня есть требование извлечь первый раздел из каждой таблицы в улье. Я...
Я использовал потоковую обработку Spark 2.1 для обработки данных о событиях от Kafka. После...
Предположим, у меня есть такой фрейм данных val customer = Seq( ("C1", "Jackie...
Я читал этот пост, https://nycdatascience.com/blog/student-works/yelp-recommender-part-2/, и...
Я пытаюсь создать новый столбец данных (b), удаляя последний символ из (a).Столбец a - это строка...
Я пытаюсь использовать коннектор Hortonworks hbase для spark 2.0 для работы с hbase (https://github
Язык - Scala Версия Spark - 2,4 Я новичок в Scala и Spark. (Я из Python, поэтому вся экосистема JVM...
После запуска мастера и рабочего на одном компьютере ... spark-class org.apache.spark.deploy.master
Я пытаюсь запустить команду Sqoop с параметром - query в оболочке Scala, используя...
Я пытаюсь настроить спарк с новой библиотекой Microsoft.Spark.Метод DataFrame.PrintSchema работает...
У меня есть требование прочитать файл в приложении потоковой передачи, и для его кэширования...
У меня есть миллиарды данных в формате hdf, теперь я хочу загрузить данные с помощью Spark, а затем...
У меня есть таблица, как показано ниже id week count A100 201008 2 A100 201009 9 A100 201010 16...
accountBal.createOrReplaceTempView("accntBal") var finalDf = spark.sql( " SELECT...
Допустим, список из Seq("a", "b", "c") и eventDF, eventDF
Я хочу иметь внешнюю таблицу Partitioned Hive, чтобы только данные внешнего процесса искры...
Мой источник данных - Кафка, и я читаю данные из Кафки следующим образом: var df = spark