(есть проблема с Apache Spark У меня есть кластер с 10 узлами (1 ведущим и 9 ведомыми), каждый узел...
Я бегу spark-submit для запуска в Kubernetes (Spark 2.3). Моя проблема в том, что InitContainer не...
men = data.flatMap(lambda x :x['text'].split(" ")) \ .filter(lambda x: len(x
У меня есть фрейм данных, который имеет несколько значений «None». После преобразования строковых...
Мне нужно объединить комбинации гласных слов в текстовом файле, используя Scala. Например, если...
У меня есть несколько тестовых случаев, таких как чтение / запись файла в HDFS, которые я хочу...
Мне нужно записать во внешний кластер HDFS, данные аутентификации которого доступны как для простой...
Я изучаю Scala и пытаюсь выяснить, как создать программу MapReduce в Scala, чтобы найти для каждого...
Я хочу запустить эту программу. Я новичок в Scala Spark. У меня «ошибка компиляции» кто-нибудь...
Буду признателен, если вы поможете мне. Во время реализации потоковой передачи искры от kafka к...
Используя новую функцию Spark 2.3.0, ImageSchema, я считал некоторые изображения в виде набора...
Теперь мне удалось запустить Pyspark в Jupyter в локальном режиме вторым способом, упомянутым в...
Один из столбцов в моем исходном файле данных содержит двойные кавычки ("), и когда я пытаюсь...
У меня есть датафрейм, как показано ниже - Id,timestamp 100,1 200,2 300,3 400,4 500,5 600,6 А...
У меня более 100 миллионов записей, хранящихся в файлах со следующей структурой JSON (реальные...
Я пытаюсь загрузить некоторые файлы в HDFS с использованием Scala. Тем не менее, я получаю ту же...
Ну, название вопросов говорит само за себя. У меня есть требование, которое требует получения...
Учитывая следующий DataFrame, нам нужно интерполировать my_column значения из примера и...
Я хочу проверить, является ли .csv null или нет. Если не null и содержит запись, обработайте файл,...
Мне нужен запрос, в котором перечислены уникальные Составные ключи разделов внутри Spark. Запрос в...
Я использую gradle для создания своего проекта, смешивающего Kotlin и Apache Spark, но как только я...
Scala версии 2.11 и Spark 2.0.1. У меня есть датафрейм, где я делаю некоторые операции внутри udf....
при записи многораздельного набора данных в HDFS / S3 файл _SUCCESS записывается в выходной каталог...
Я получил эту ошибку при попытке запустить «Как использовать MongoDB Hadoop Connector с Spark». на...
Я пытаюсь записать данные с помощью PySpark с локального на удаленный сервер, и я получаю сообщение...