Я пытаюсь оптимизировать приложение Spark Streaming, которое собирает данные из кластера Kafka,...
У меня есть два Python dataframes, я проверяю их перед заполнением, поэтому иногда один из них пуст
from pyspark.ml.feature import MinMaxScaler from pyspark.ml.linalg import Vectors df = spark
inputfile='s3a://storename/stores.csv' output_file='s3a://storename/newstores
Я читаю сжатый файл .gz в pyspark на EMR. Но файл имеет неправильный формат (это файл json с...
У меня есть кластер kubernetes, в котором я развернул собственный искровой кластер. У Spark есть...
У меня есть PySpark DataFrame со столбцами people и timestamp (плюс дополнительные столбцы, которые...
У меня есть экземпляр словаря, который имеет Unicode (использует UTF-8) ключ и значение в качестве...
У меня есть несколько локальных серверов разработки с обратной связью, которые я использую в Centos...
в запросе, чтобы выбрать некоторые столбцы из кадра данных, у меня есть тип столбца: карта, которая...
У меня есть запрос pyspark, который возвращает WrappedArray: det_port_arr =...
Я пытаюсь подключить свой локальный IP-адрес с помощью сеанса спарка: - spark = SparkSession.\...
У меня есть таблица в улье, и я читаю эту таблицу в pyspark df_sprk_df from pyspark import...
Я понимаю, что в StackOverflow есть похожие сообщения (например, one ), но я все еще не смог...
Как я могу инициировать выполнение нескольких скриптов Pyspark из одной записной книжки параллельно
Я написал udf в pyspark, в котором используется цикл for с индексами (в основном это всего...
Я настроил новую систему, spark 2.3.0, python 3.6.0, чтение данных и другие операции, работающие...
Какая версия Py4J идет с Spark 2.3.1? У меня есть py4j-0.10.7, но выдает ошибку из-за определенных...
Я собрал клиента Kafka, который извлекает данные из записи Kafka в Elasticsearch, программа...
Я относительно новичок в PySpark. Я пытался кэшировать данные 30 ГБ, потому что мне нужно выполнить...
Мне нужно обработать фрейм данных, содержащий логи (вход и выход) для приложения Данные приведены...
Когда я пытаюсь установить зависимость пакета "spark-sftp" в моей конфигурации Spark, я получаю...
Я новичок в pyspark и пытаюсь воссоздать код, написанный на python. Я пытаюсь создать новый фрейм...
У меня достаточно большой (~ 1 ТБ) набор данных Parquet, разделенный столбцом database_id. Я хочу...
У меня есть фреймы данных со столбцами местоположений, и каждая ячейка содержит список названия...