Датафреймы Pandas и Spark возвращают разное количество строк при загрузке одного и того же CSV-файла. - PullRequest
0 голосов
/ 21 июня 2019

Я пытался загрузить тот же файл .csv (~ 601MB) в кадр данных pandas, а также в кадр данных spark.Выполнение простого подсчета строк на обоих фреймах данных дает различное количество строк:

  • панд: 2,206,990
  • искра: 3,738,937

Я использую искрукластер (i3.xlarge 30,5 ГБ памяти + 3 рабочих одного типа) на Databricks.А также попытался использовать экземпляр AWS EC2 для загрузки фрейма данных pandas (i3.xlarge 30,5 ГБ памяти).Файл загружается в spark, как показано ниже:

train_df = spark.read.option("delimiter", ";").csv(train_pth, header="true", inferSchema="true")

В пандах:

train_df = pd.read_csv(train_pth, delimiter=";")

Я новичок в пандах.Кто-нибудь может посоветовать, если функция pandas read_csv накладывает ограничение на количество загружаемых строк?

Большое спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...