У меня есть набор данных case class MyDS ( id: Int, name: String ) Я хочу получить все имена в...
Я запускаю процедуру предварительной обработки с помощью pyspark в локальном режиме на 12-ядерном...
Я использую scala и пытаюсь записать файл со строковым содержимым в S3.Я пытался сделать это с...
У меня есть последовательность кортежей, через которые я сделал RDD и преобразовал это в dataframe....
На Eclipse, при настройке spark, даже после добавления внешних jar-файлов для построения пути к...
У меня миллионы строк в виде фрейма данных, например: val df = Seq(("id1",...
Невозможно распознать функцию avg и over в IntelliJ. Это говорит, что не может разрешить символ avg...
У меня небольшая проблема.Я хотел бы удалить любую строку, содержащую «NULL». Это мой входной файл:...
Я пытаюсь использовать сумму после groupBy, например, val b = a.groupBy($"key")
Мы используем DataStax Spark 6.0. Мы отправляем задания, используя crontab для запуска каждые 5...
У меня есть dataframe, как показано ниже c1 Value A Array[47,97,33,94,6] A Array[59,98,24,83,3] A...
Свойство репликации Hadoop не работает из кода зажигания У меня есть сценарий использования, для...
Я пытаюсь сгруппировать указанный ниже набор данных на основе столбца «id» и поэлементно...
Вопросы, связанные с ядрами и исполнителями, задаются несколько раз в SO. Apache Spark: количество...
У меня есть работа Spark, написанная на Scala, которая в конечном итоге записывается в AWS DynamoDB
Ниже приведен мой код, и когда я пытаюсь перебрать каждую строку: val df: DataFrame = sqlContext
У меня довольно большой набор данных (100 миллионов + записей с сотнями столбцов), которые я...
Я читаю файл xml, используя sparkSession на основе заданного rowTag. Полученный в результате...
При выполнении следующего фрагмента кода возникает ошибка преобразования mtcars_tbl в h2o dataframe...
Я работаю над проектом spark в IDE затмения, используя scala Мне нужна помощь с этой проблемой...
У меня есть следующий набор данных, в настоящее время использующий UDF для суммирования массивов
Когда я пытаюсь прочитать файл паркета из указанного места, например / test, с помощью spark.read
У меня есть задание PySpark, которое я отправляю в Livy с помощью Python-клиента . Я бы хотел...
Я недавно установил Spark 2.4.3 и получаю следующее исключение при попытке запустить pyspark и не...
у меня есть следующая схема свечей данных root |-- UserId: long (nullable = true) |--...