У меня есть 2 сервера, на которых установлен и настроен MapR.Я использую Py-Spark для...
У меня есть задание MR, которое создает файл последовательности с ключом в качестве экземпляра...
Я пытаюсь прочитать данные из таблицы улья, хранящиеся в формате Parquet.Я использую распределение...
Я боролся с тем, как сделать запрос pyspark, который извлекает данные из созданной мною таблицы...
Я пытаюсь выполнить spark-submit ***.py , затем я получил Ошибка: не удалось найти или загрузить...
Я пытаюсь прочитать текстовый файл и разделить его на предложения с помощью спарка.Для этого мне...
Я пытаюсь читать авро-сообщения от Кафки, используя PySpark 2.4.0. Внешний модуль spark-avro может...
У меня есть это требование для сравнения метки времени текущей строки с предыдущей строкой кадра...
Я бы хотел отправить SparkApplication в кластер Kubernetes программно из python. Определение...
Все еще новичок в Spark, и я пытаюсь сделать это окончательное преобразование максимально чистым и...
Я использую Apache spark в пакетном режиме.Я настроил весь конвейер, который преобразует текст в...
Я читаю данные из различных источников JDBC, используя метод чтения PySpark.JDBC читает из Teradata...
spark1.6, извлечение данных из моей базы данных Vertica для работы с ним, приведенный ниже запрос...
Я использую Java-Spark, я получаю сообщение из темы Кафки, которое указывает путь к zip-файлу, я...
Исходя из различных критериев, я должен сравнить временную метку текущей строки с предыдущей...
Я бы хотел перебрать содержимое столбца в искре DataFrame и исправить данные в ячейке, если она...
Как я могу изменить файл csv на DataFrame. значения csv - country,2015,2016,2017,2018,2019 Norway,4
Я пытаюсь выполнить ниже SQL-запрос в SPARK, используя Java: Dataset<Row> perIDDf =...
Я пытаюсь выполнить юнит-тест моего метода, который подключается к Cassandra и выполняет оператор...
Я пытаюсь получить все уникальные значения СДР и соответствующие им числа вхождений.Я пытался...
Я хочу удалить числа с 5 или более цифрами из столбца DataFrame, используя RegexTokenizer PySpark
Моя конечная цель - использовать PySpark для эффективной индексации большого объема данных в...
Я пытаюсь создать новые кадры данных, используя столбцы исходного кадра данных (df0). Я пытался...
У меня есть инструмент, который использует org.apache.parquet.hadoop.ParquetWriter для...
У меня проблема с pyspark.Я могу запустить свой кластер, когда я загружаю pysparkshell из командной...