Я бы попробовал прочитать с Pandas
, а затем преобразовать в искровой датафрейм. По моему опыту, Pandas
чтение в формате csv более стабильно.
import pandas as pd
df = pd.read_csv('path')
df_spark = spark.createDataFrame(df)
Ваше число записей подходит для чтения с Pandas