Проработанный сценарий -> каталог HDFS, который «заполняется» новыми данными журнала о нескольких...
У меня есть задание потоковой передачи, которое запускается на EMR, читает сообщения от Kafka и...
Допустим, в mongodb есть коллекция "товаров", подобная этой: {name:"A"...
У меня есть искровое задание, работающее в кластерном режиме, которое требует использования паролей...
Моя Java-программа Spark принимает файл размером 3,7 ГБ.Когда я запускаю программу spark и захожу в...
При попытке создать поток из текстового файла в Pyspark появляется следующая ошибка: TypeError:...
проблема в том, что этот код прекрасно работает с python 2.xn. Новый python 3.5 в Apache позволяет...
Я новичок в Spark и scala и работаю над простым примером WordCount. Так что для этого я использую...
У меня есть два кадра данных, как показано ниже, и мне нужен третий DF из этих двух. DF1 Name Value...
При перезапуске спарк кластера вся история завершенного приложения в веб-интерфейсе удаляется.Как я...
Я новичок в scala и spark, и у меня есть требование, в котором я хочу использовать формат и...
У меня есть случай использования, когда я хочу зашифровать свои данные, когда я сохраняю данные в...
Я только начал изучать spark и scala и тестировать некоторые преобразования и действия с RDD. Я...
Я хочу присоединиться к 3 tables, используя spark rdd.Я достиг своей цели, используя spark sql, но...
В настоящее время у меня есть задание ETL, которое читает несколько таблиц, выполняет определенные...
Вот датафрейм в искре +------+----+---+ | Close|sell|buy| +------+----+---+ | 314.6| 0| 1| | 120|...
Я использую Apache Spark и у меня есть фрейм данных, который выглядит следующим образом: scala>...
Представьте два сценария в EMR: Запуск задания зажигания в локальном режиме на одном узле. Запуск...
используя это в качестве начальной команды ... PYSPARK_DRIVER_PYTHON=/opt/miniconda/bin/python...
У меня есть опыт создания решений ETL на основе Azure Data Factory и Azure Data Lake Analytics...
Я использую https://github.com/holdenk/spark-testing-base для написания тестов JUnit. Проверьте...
Я ежедневно принимаю данные из различных внешних источников, таких как GA, скребки, Google BQ и т....
Я пытаюсь подсчитать для данного order_id, сколько заказов было за последние 365 дней, которые...
Я работаю с Databricks и хочу получить список всех моих фреймов данных с их количеством наблюдений....
Мы находимся на HDP 3.0, и когда я выполняю какие-либо запросы на выборку в Hive, он работает...