Я пытался загрузить тот же файл .csv (~ 601MB) в кадр данных pandas, а также в кадр данных spark.Выполнение простого подсчета строк на обоих фреймах данных дает различное количество строк:
- панд: 2,206,990
- искра: 3,738,937
Я использую искрукластер (i3.xlarge 30,5 ГБ памяти + 3 рабочих одного типа) на Databricks.А также попытался использовать экземпляр AWS EC2 для загрузки фрейма данных pandas (i3.xlarge 30,5 ГБ памяти).Файл загружается в spark, как показано ниже:
train_df = spark.read.option("delimiter", ";").csv(train_pth, header="true", inferSchema="true")
В пандах:
train_df = pd.read_csv(train_pth, delimiter=";")
Я новичок в пандах.Кто-нибудь может посоветовать, если функция pandas read_csv
накладывает ограничение на количество загружаемых строк?
Большое спасибо!