Question

Хотите объединить содержимое нескольких файлов в одном фрейме данных, используя pyspark, как мы можем это сделать в pandas.

Файл 1:

1  
2  
3

Файл 2:

a  
b  
c  
d

Ожидаемый результат:

1, a  
2, b  
3, c  
 , d

Sreejith · Answer 1 · 25 октября 2018

spark = SparkSession.Builder().master(
        <master_url>
    ).config(conf=<spark_config>).appName(<app_name>)
spark_session = spark.getOrCreate()

df = spark_session.read \
     .format("com.databricks.spark.avro") \
     .option("mergeSchema", "true") \
     .load(<csv_path_1>, <csv_path2>)

здесь df будет фреймом данных spark.

Примечание: - установите пакет jar spark_avro перед запуском этого кода или добавьте нижнюю строку в конфигурацию spark для установки пакета spark-avro.

"spark.jars.packages": "com.databricks:spark-avro_2.11:4.0.0"

Concat несколько файлов в Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Concat несколько файлов в Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов