Я пытаюсь подключиться к Vertica dB с помощью Spark v2.3.1 Scala 2.11.8 с использованием jdbc. На...
Вчера (практически полный журнал) Я попытался найти элегантный способ представления модели с...
При запуске My spark Kafka Direct Stream будут использоваться только те сообщения, которые были...
Я пытаюсь использовать воспламенение поверх искры и запускаю несколько тестов, чтобы выяснить,...
У меня есть удаленный сервер kafka с 3 узлами и 1 узлом zookeeper. Также у меня есть кластер с...
У меня есть следующий кадр данных: +-----------+ | f1 | +-----------+ |[a,b,c] | |[e,f,g] | |[h,i]...
Я тренирую модель случайного леса в Spark 2.3, используя StringIndexer, OneHotEncoderEstimator и...
Моя проблема в том, что я работаю с DataFrame и хочу: 1) Получить один столбец с val column =...
Допустим, у меня есть этот фрейм данных: myDataFrame.map(r => ( ( r
Я новичок в PySpark, но мне удалось заставить работать ниже. У меня есть еще 2 требования, оба из...
Я пытаюсь прочитать потоковые данные JSON из Kinesis в PySpark. Мой JSON выглядит следующим...
Я совершенно новичок в Spark.Был случай, когда я пытаюсь вызвать несколько вызовов HTTP API...
Поработав с этим в течение долгого времени, в Spark 2.3 я наконец смог сохранить чистый...
У меня есть структура кода, подобная следующей. trait Document { def name: String @transient lazy...
Я искал альтернативу для SQL-запроса в Spark Scala, в частности, Мой запрос ниже: CAST( COLUMN as...
Если я читаю данные из CSV, по умолчанию все столбцы будут иметь тип «String».Обычно я проверяю...
У меня есть два источника, они могут быть различными типами источников (база данных или файлы) или...
Я пытаюсь выполнить несколько соединений на разных таблицах улья с помощью Spark и также пытаюсь...
У меня есть существующие паркет (скажем, p1) для чтения в информационный кадр, а затем после...
Я новичок в PySpark и работаю над сценарием, читая из .csv файлов. Я четко определил схему ниже, и...
Как установить значение по умолчанию для pyspark.sql.functions.lag на значение в текущей строке?...
Когда я запускаю искровую работу через oozie, она всегда застревает в принятом состоянии.Я следовал...
мы запускаем приложение Spark 1.6.1.В какой-то момент я не вижу больше рабочих мест, представляемых
Поскольку мы можем использовать изменяемый объект в качестве широковещательной переменной в spark,...
У меня есть DataFrame со следующей схемой: root |- documentId |- timestamp |- anotherField Например...