Я использую Spark 2.3.0, у меня есть 2 набора данных, оба они достаточно большие, 400 МБ +.Когда я...
Мне нужно перебрать rdd, вынуть данные для обработки и поместить их в буфер списка.Когда я...
У меня есть СДР, как показано ниже, и я хотел бы получить доступ к элементам в каждой строке по их...
Я только начал использовать scala-spark.Я хочу прочитать данные из MongoDB, а также потоковые...
У меня есть стол улья create table json_tab ( c1 string, c2 int, c3 array<struct<c4:string,...
Я пишу записную книжку на Python, и мне нужно делегировать часть работы в Scala UDF.Я хочу иметь...
Я записываю данные json из структурированной потоковой передачи Kafka в путь к файлу, и когда я...
В этом запросе мне дан кадр данных со столбцом 5d евклидовых точек (хранится в виде массива двойных...
У меня есть несколько строковых значений в одном столбце, и я хотел бы заменить подстроки в этом...
Я использую spark-sql для запуска sql, но он показывает только набор результатов, но не показывает...
Я создал приложение, которое использует Spark-Streaming с пользовательским приемником Google Pub /...
Попытка заменить ноль на 0 в кадре данных, используя UDF ниже. Там, где я могу ошибаться, код...
(Я новичок в Spark, Impala и Kudu.) Я пытаюсь скопировать таблицу из БД Oracle в таблицу Impala,...
Я соединяю две таблицы в красном смещении, используя pyspark. Условие соединения находится между...
У меня есть файлы паркета, и я хочу прочитать их на основе динамических столбцов, поэтому возьмем...
Я нашел код ниже на этом сайте: https://spark.apache.org/docs/2.3.1/ml-tuning.html // Note that the...
У меня есть требование, при котором я должен динамически генерировать несколько столбцов в pyspark....
Я новичок в pyspark. Я пытаюсь обработать 10 ГБ сжатых данных. Папка содержит несколько файлов GZIP...
У меня есть UDF в pyspark, как показано ниже для преобразования строки в метку времени...
Скажем, у меня файл размером 256 КБ хранится в файловой системе HDFS одного узла (как два блока по...
У меня есть два кадра данных, для которых я пытаюсь найти разницу. 2 кадра данных содержат массивы...
Я пытаюсь создать пару в теме для продюсера Кафки. Получение ошибки о том, что Kafka не является...
Я хранил данные protobuf в кодировке base64 в таблице больших запросов, где столбцы выглядят...
Я нахожусь в Jupyter, я выбираю ядро Scala 2.11, когда я помещаю data val = matrix (1, 2, 3, 4,...
Приложение My Spark обрабатывает сообщения от Кафки и записывает их в Cassandra.Через 3 часа...