Предположим, у меня есть искровой фрейм данных df с некоторыми столбцами (id, ...) и строка...
У меня есть кадр данных Spark с именем df в качестве ввода: +---------------+---+---+---+---+...
У меня есть Wrapped Array, и я хочу получить значения не нулевые, когда я запрашиваю с LATERAL VIEW...
Люди, Требуется предложение и помощь в группировке логики и обработке более 10 миллионов записей....
DF: ID col1 . .....coln.... Date 1 1991-01-11 11:03:46.0 1 1991-01-11 11:03:46.0 1 1991-02-22...
Я новичок в Spark и Scala и хотел знать, могу ли я использовать тот же sparkContext, который я...
Я потянул свои волосы, пытаясь оптимизировать скрипт Spark, и он все еще невыносимо медленный (24...
У меня есть набор данных карты aadhaar. Мне нужно найти три верхних штата, где процент карт...
У меня есть коллекция файлов журнала приложений Spark, я хочу, чтобы каждый файл Имя приложения,...
У меня есть следующий СДР, представляющий данные о продажах: val rddSales:RDD[((String, String),...
Добрый день, коллеги. У меня большой набор данных (около 237 000 000 строк). Есть много столбцов....
Я хотел бы настроить автономный кластер apache spark, используя два разных компьютера (windows 10)...
Я получаю следующее исключение в java в Apache Beam, используя Spark в качестве бегуна. Я...
Я пытаюсь получить доступ к полю batchDuration в StreamingContext. Я не вижу общедоступного API,...
У меня есть вложенный talbe mongodb и его структура документа, такая как: { "_id" :...
У меня есть конвейер Spark с 3 DataFrame.write, и я хочу вывести временную метку для каждой записи....
Требуется объединить данные из 2 потоковых источников, а затем уменьшить их для того же ключа и...
Я пытался установить StreamingContext в моей программе, но я не могу понять, что происходит. Я...
Я разрабатываю решение SparkStreaming, в котором таблица кустов кэшируется как Dataframe, а затем...
Посмотрите на мой последний комментарий принятого ответа для решения Я настроил DStream так: val...
Я использую Spark 2.3 и пытаюсь объединить два потока данных. Мой левый и правый потоки имеют...
Поэтому мне нужно создать массив чисел, перечисляющий от 1 до 100 в качестве значения для каждой...
Я использую Spark 2.3 для преобразования некоторых данных CSV в ORC для использования с Amazon...
У меня есть фрейм данных с подробной информацией о событии, я пытаюсь получить топ-5 недавно...
Я читаю файлы JSON из папки HDFS в Spark Scala Код: val path = "hdfs://year/month/date/*"...