У меня около 700 ГБ данных, которые я читаю из HDFS при каждом запуске задания Spark. Моя работа...
У меня есть оригинальный фрейм данных с несколькими столбцами, чтобы упростить их: product_id,...
Мой набор данных ~ 20 миллионов строк, занимает ~ 8 ГБ ОЗУ. Я выполняю свою работу с 2...
В настоящее время я пытаюсь использовать структурированную потоковую передачу в Scala Spark Shell....
Написал следующий UDF с целью заставить его обрабатывать случай, когда один параметр не определен....
У меня есть набор данных, который я хочу записать, отсортированный в файлы паркета, чтобы...
Привет всем: я обнаружил проблему в своем кластере с искровым потоком. Мы собираем потребителя,...
Разрабатывая новый проект ML с помощью Spark, мы хотим сначала сгладить входные данные, чтобы иметь...
У меня есть данный кусок кода. Я запускаю это на Spark 2.3.1, используя Zeppelin 0.8.0 и org.apache
У меня есть два класса scala как часть моей работы на spark-sql, то есть Driver.scala и...
4 исполнителя.и 35 данных раздела, нет перекоса данных.на этапе mapWithState существует 10 задач,...
Я использую Spark JDBC для подключения к таблице MySQL. Когда он читает таблицу, схема содержит все...
Мы сталкиваемся с ошибкой No space on device при выполнении заданий Spark в нашем кластере YARN....
Доступна ли вкладка потоковой передачи для готовых приложений потокового воспроизведения. Можем ли...
У меня есть работающее приложение, которое запрашивает таблицу кустов, используя HiveContext, и оно...
После прочтения некоторых технических статей говорят, что датафрейм знает только имя столбца, но не...
Я пытаюсь получить максимальное, среднее для всех строк за последние x минут (например, 10 минут)...
Я хочу выполнить поиск по сетке для моей модели случайного леса в Apache Spark. Но я не могу найти...
есть ли у spark возможность записывать большие файлы (несколько G байтов) в openstack swift...
Рассмотрим сценарий, в котором Spark (или любая другая среда Hadoop) считывает большой (скажем, 1...
У меня есть следующий сценарий на моем наборе данных. Мне нужно суммировать значения некоторых...
Я работаю в кластере с 3 узлами HDP (2 датода, 1 наменод) на 3 разных виртуальных машинах,...
У меня есть разделенный фрейм данных, сохраненный в hdfs. Я должен периодически загружать новые...
Я пишу файл паркета из Spark DataFrame следующим образом: df.write.parquet("path/myfile
Я пытаюсь отфильтровать DataFrame, сравнивая два столбца даты, используя Scala и Spark. На основе...