Я интегрировал Spark Structured Streaming с Kafka, в котором я слушаю 2 темы def main(args:...
У меня есть 2 машины с оперативной памятью 32 ГБ и 8 ядрами на каждой машине. Итак, как я могу...
После использования искры для загрузки экономичных файлов: val rdd1 = sc
Как метод в искре будет угрожать векторной колонке ассемблера?Например, если у меня есть столбец...
Я хотел бы знать, использует ли spark кэшированную память Linux или используемую память Linux,...
Как я могу форсировать (в основном) равномерное распределение? Я хочу выполнить что-то вроде: df
Мне нужна помощь в преобразовании плоского набора данных во вложенный формат с помощью Apache Spark...
У нас есть входные файлы (небольшие файлы .gz), организованные в структуре папок ниже. USER1...
Я использую FlatMapGroupsWithStateFunction в моем приложении для потоковой передачи....
Я новичок в искре.У меня есть следующая таблица в Кассандре: CREATE TABLE cust_actions ( orgid text...
Я запускаю искровое задание, которое получает данные, уже разделенные на разделы размером 10 МБ...
У меня есть фрейм данных с несколькими миллионами записей, я использовал кластеризацию k-Means и...
У нас есть потоковое приложение Spark (2.3.1), работающее через EMR (5.16), получающее данные от...
Я пытаюсь подсчитать появления определенных предметов на определенную дату. Структура моего ввода...
Используя DataFrames в Apache Spark 2. +, есть ли способ получить базовые RDD и вывести...
В документации написано: enable.auto.commit: источник Kafka не фиксирует никакого смещения....
У меня есть паркетные файлы, которые мне нужно прочитать со спарк. В некоторых файлах отсутствует...
Найти userID пользователя / ов, которые / дали максимальную обратную связь с фильмами из текстового...
Работая с объединениями Spark Dataset / DataFrame, я столкнулся с длительным запуском и не смог...
Найдите те movie_Ids из файла оценок, которые не получили оценки ниже 4 любым пользователем.Файл...
У меня есть два кадра данных, A и B. У каждого есть столбец с именем 'names', а этот...
Я создал образец темы в kafka и пытаюсь использовать содержимое в spark, используя приведенный ниже...
Я установил Hortonworks hdp3.0 и также настроил Zeppelin. Когда я использую spark или sql, Zeppelin...
У меня ошибка в моем коде.Код сбрасывает некоторые данные в базу данных Redshift. После некоторых...
Я использую Google dataproc для отправки заданий на спарк и Google Cloud Composer для их...