Я запускаю простой проект Spark в кластере EMR YARN, чтобы: прочитать текстовый файл на S3 в...
У меня есть данные с ненужными пробелами и значениями Null в моем CSV-файле.Я загрузил этот файл в...
Я пытаюсь следовать этому примеру, чтобы разбить строки hbase: https://www.opencore
Я пытаюсь преобразовать список карт (Seq [Map [String, Map [String, String]]) в таблицу / кортеж...
У меня есть RDD с другим набором значений, и я хочу вернуть все отдельные наборы из исходного RDD....
Мне нужно передать ко многим различным сценариям и денормализовать все результаты в одну таблицу (,...
Я хотел использовать foreachPartition на фрейме данных, чтобы отправлять данные каждой строки...
У меня есть датафрейм, который выглядит следующим образом: items_df...
Я пытался добавить значения существующего списка в кортеж.Это не показывает ошибку компилятора, но...
У меня есть RDD, в котором мой ключ является идентификатором, а значения включают список...
У меня есть rdd с парой ключ-значение в Scala. Я хочу сформировать rdd таким образом, чтобы оно...
Я создаю rdd с wholeTextfiles.Я получаю filepath и filetext.Я хочу новый RDD с filepath и индексом...
У меня есть СДР, как показано ниже, и я хотел бы получить доступ к элементам в каждой строке по их...
Я вычисляю косинусное сходство между всеми строками фрейма данных с помощью следующего кода: from...
У меня есть данные textFile, которые выглядят как 28.225.37.170 - - [14/May/2019:00:00:05 +0000]...
У меня есть этот rdd, содержащий кортежи, и сбор их даст мне список. [x1, x2, x3, x4, x5] Но я хочу...
Я хотел бы разделить мой RDD относительно запятых и получить доступ к предопределенному набору...
Когда я пытаюсь создать фрейм данных со схемой в приведенном ниже коде, он не работает, и если это...
У меня есть задание spark (spark 2.1), которое обрабатывает потоковые данные, используя прямой...
Этот вопрос является почти точной копией требования здесь: Запись файлов в локальную систему с...
Я пытаюсь прочитать CSV-файл в JavaRDD. Для этого я написал код ниже: SparkConf conf = new...
Я использовал потоковую обработку Spark 2.1 для обработки данных о событиях от Kafka. После...
Я пытаюсь отфильтровать данные в соответствии с полем даты и времени. Образец из моих данных: 303,0
Я пытаюсь выбрать некоторые столбцы из RDD, в котором есть данные, считанные из файла CSV. Однако...
Я новичок в spark и имею данные ниже в формате csv, которые я хочу преобразовать в правильный...