Я новичок в искре и у меня есть некоторые фундаментальные сомнения.Я работаю над приложением...
Я хочу загрузить несколько XML-файлов (по 50 МБ каждый - около 3000 = 150 ГБ), обработать их и...
Запуск улья с искрой продолжает выдавать мне эту ошибку.Я пробовал много разных версий как кустов,...
Я написал одну функцию pyspark, но когда я запускаю ее несколько раз, она дает мне каждый раз...
Всегда получая значение Аккумулятора как 0. package com.fast.processing.data import org.apache
Так что я пытаюсь найти и удалить все дубликаты из набора статей, прежде чем делать некоторые НЛП...
У меня есть искровое задание, которое случайным образом выбирает мои входные данные.Затем я создаю...
После установки anaconda3 и установки spark (2.3.2) я пытаюсь запустить пример кода pyspark. Это...
Я новичок в pyspark, я пишу код на python для чтения csv как rdd. Но я согласился с...
При запросе эластичного поиска из Spark выбирается только значение _id, но не любые значения....
У меня есть 2 кадра данных, где df1 имеет столбец key1, а df2 имеет столбец key2. Здесь столбец...
У меня есть пять Hive таблиц, предположим, что имена A, B, C, D и E. Для каждой таблицы есть ключ...
Я пытаюсь получить некоторые данные из дистрибутива Cloudera Quick Start Hadoop (для нас...
У меня есть таблица, в которой есть столбец, содержащий массив, подобный этому - Student_ID |...
Есть ли способ указать полный путь к папке jar-файлов, которые должны быть отправлены на драйвер, а...
Документация SnappyData (docs / program_guide / using_the_spark_shell_and_spark-submit.md)...
Я только начал использовать pyspark и не могу заставить мой UDF работать только на нужных строках....
Я пытаюсь создать приложение Scalatra, которое запускает код с помощью spark. Я действительно могу...
Я импортирую файлы JSON динамически (отправка нескольких имен файлов в сценарий параллельно), и...
Я пытаюсь создать программу pyspark для подсчета количества строк, содержащих определенный шаблон...
У меня есть rdd. Я хочу сгруппировать его по некоторому свойству и сохранить каждую группу в...
Я новичок в Scala и Spark, я попробовал приведенный ниже код, но он не работает.Может кто-нибудь...
У меня есть Seq и датафрейм.Фрейм данных содержит столбец типа массива.Я пытаюсь удалить элементы...
The YARN application has already ended! It might have been killed or the Application Master may...
Я настроил конвейер для входящих событий из потока в Apache Kafka. Spark подключается к Kafka,...