Concat несколько файлов в Pyspark - PullRequest
0 голосов
/ 25 октября 2018

Хотите объединить содержимое нескольких файлов в одном фрейме данных, используя pyspark, как мы можем это сделать в pandas.

Файл 1:

1  
2  
3  

Файл 2:

a  
b  
c  
d  

Ожидаемый результат:

1, a  
2, b  
3, c  
 , d 

1 Ответ

0 голосов
/ 25 октября 2018
spark = SparkSession.Builder().master(
        <master_url>
    ).config(conf=<spark_config>).appName(<app_name>)
spark_session = spark.getOrCreate()

df = spark_session.read \
     .format("com.databricks.spark.avro") \
     .option("mergeSchema", "true") \
     .load(<csv_path_1>, <csv_path2>)

здесь df будет фреймом данных spark.

Примечание: - установите пакет jar spark_avro перед запуском этого кода или добавьте нижнюю строку в конфигурацию spark для установки пакета spark-avro.

"spark.jars.packages": "com.databricks:spark-avro_2.11:4.0.0"

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...