У меня есть файл данных csv, как указано ниже, каждая строка завершается возвратом каретки ('\ r') ...
Я использую искру на scala. И у меня есть несколько пустых строк в Rdd.Мне нужно удалить их из Rdd....
Я пытаюсь создать линию данных, в которой несоответствующие данные сохраняются в паркете, и я...
у меня есть кадр данных из обрабатывающей части, выглядит следующим образом:...
Я пытаюсь прочитать несколько файлов по разным путям одновременно.На сервере sql путь "/mapr/ia1
Я пытаюсь записать фрейм данных, который содержит около 230 миллионов записей для Кафки.В частности...
Я пытаюсь создать индекс на Postgres Table через Spark, а код выглядит следующим образом: val df3 =...
Это примерно transform функция высшего порядка (https://issues.apache.org/jira/browse/SPARK-23908)....
Я выполнил задание, используя spark-submit, в то время как мы потеряли исполнителя и определенную...
Я пытаюсь понять, как Spark управляет планом выполнения этапов в задании.Я проверил много контента...
Итак, в настоящее время у меня есть таблица, похожая на эту userID, day, itemID 1, 1, A 1, 1, B 2,...
Вот мой вложенный JSON-файл. { "dc_id": "dc-101", "source": {...
Я видел из двух источников, что сейчас вы не можете каким-либо осмысленным образом...
У меня есть два строковых столбца, разделенных запятыми (sourceAuthors и targetAuthors). val df =...
Я использую Spark Structured Streaming с Spark 2.3.1 и ниже мой код: val sparkSession =...
Это пример файла JSON.Я хочу сделать это в целом, например, если у меня есть корневые теги, то как...
У меня есть СДР с двумя элементами (идентификатор, дата).Со следующей структурой: data=sc
Pcollection<String> p1 = {"a","b","c"} PCollection<...
У нас есть большой набор данных, состоящий из нескольких миллионов записей, а затем обрабатывающий...
У меня есть один или несколько CSV-файлов, которые мне нужно объединить в pyspark: файл 1: c1,c2,c3...
Я хотел бы знать ответ на следующий вопрос. Как обрабатывается СДР, если ни один из исполнителей не...
У меня есть сценарий, в котором датафрейм имеет data_date, как показано ниже root |-- data_date:...
Я знаю, что block - это базовая единица хранения, а partition - базовая единица вычислений в Spark....
У меня 10 .dat больших файлов.Я использую Pyspark, чтобы преобразовать эти файлы в формат паркета,...
У меня есть фрейм данных, к которому я применил filter условие val colNames = customerCountDF