У меня есть требование соединить 50 нечетных файлов на наборе из 3 ключей, используя кадры данных...
Я работаю над проектом прогнозирования ссылок в Spark, используя Scala. Моя цель состоит в том,...
У меня около 700 ГБ данных, которые я читаю из HDFS при каждом запуске задания Spark. Моя работа...
У меня есть оригинальный фрейм данных с несколькими столбцами, чтобы упростить их: product_id,...
Мой набор данных ~ 20 миллионов строк, занимает ~ 8 ГБ ОЗУ. Я выполняю свою работу с 2...
У меня есть набор данных, который я хочу записать, отсортированный в файлы паркета, чтобы...
У меня есть два класса scala как часть моей работы на spark-sql, то есть Driver.scala и...
У меня есть работающее приложение, которое запрашивает таблицу кустов, используя HiveContext, и оно...
После прочтения некоторых технических статей говорят, что датафрейм знает только имя столбца, но не...
У меня есть следующий сценарий на моем наборе данных. Мне нужно суммировать значения некоторых...
Мне интересно, как удалить диакритические знаки в Pyspark Dataframe с помощью Python2. Мне нужно...
Я пытаюсь отфильтровать DataFrame, сравнивая два столбца даты, используя Scala и Spark. На основе...
У меня есть фрейм данных Spark в следующем формате. df = spark.createDataFrame([(1, 2, 3), (1, 4,...
Я хочу вставить в свой фрейм данных tfIdfFr столбец с именем "ref" с константой, тип...
У меня есть потоковый источник Kafka с JSON, например, {"type":"abc"...
Я реализую метод buildScan API источника данных Spark v1. override def buildScan(requiredColumns:...
Я пытаюсь преобразовать ниже Teradata SQL в Spark SQL, но не могу. Может кто-нибудь предложить...
У меня есть PySpark Dataframe, который содержит столбец ArrayType(StringType()). Этот столбец...
В моей программе Scala у меня есть фрейм данных со схемой: root |-- FIRST_NAME: string (nullable =...
Я знаю, что это очень специфическая проблема, и не принято публиковать подобные вопросы в...
В моем коде Spark Java написан UDF, в котором я хочу передать более 22 столбцов (ровно 24). Но...
Мне нужно добиться чего-то похожего на: Проверка, являются ли значения в List частью String в искре
Spark 2.4 представил новые полезные функции Spark SQL, включающие массивы, но я был немного...
Когда я делаю полное внешнее объединение в Pyspark не дает выходных данных. from __future__ import...
Я работаю над двумя CSV-файлами для объединения данных и создания JSON Payload с использованием...