Question

Я пытался загрузить тот же файл .csv (~ 601MB) в кадр данных pandas, а также в кадр данных spark.Выполнение простого подсчета строк на обоих фреймах данных дает различное количество строк:

панд: 2,206,990
искра: 3,738,937

Я использую искрукластер (i3.xlarge 30,5 ГБ памяти + 3 рабочих одного типа) на Databricks.А также попытался использовать экземпляр AWS EC2 для загрузки фрейма данных pandas (i3.xlarge 30,5 ГБ памяти).Файл загружается в spark, как показано ниже:

train_df = spark.read.option("delimiter", ";").csv(train_pth, header="true", inferSchema="true")

В пандах:

train_df = pd.read_csv(train_pth, delimiter=";")

Я новичок в пандах.Кто-нибудь может посоветовать, если функция pandas read_csv накладывает ограничение на количество загружаемых строк?

Большое спасибо!

Датафреймы Pandas и Spark возвращают разное количество строк при загрузке одного и того же CSV-файла.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Датафреймы Pandas и Spark возвращают разное количество строк при загрузке одного и того же CSV-файла.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов