Я знаю 2 способа импортировать файл CSV в PySpark:
1) Я могу использовать SparkSession. Вот мой полный код в Jupyter Notebook.
from pyspark import SparkContext
sc = SparkContext()
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Spark Session 1').getOrCreate()
df = spark.read.csv('mtcars.csv', header = True)
2) Я могу использовать модуль Spark-CSV из Databricks.
from pyspark import SparkContext
sc = SparkContext()
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header = 'true', inferschema = 'true').load('mtcars.csv')
1) Каковы преимущества SparkSession над Spark-CSV?
2) Каковы преимущества Spark-CSV перед SparkSession?
3) Если SparkSession вполне способен импортировать файлы CSV, почему Databricks изобрели модуль Spark-CSV?