pandas - эффективность read_excel на нескольких больших листах - PullRequest
0 голосов
/ 28 ноября 2018

У меня есть книга Excel с несколькими листами.Некоторые содержат много данных (например, 6000000 ячеек), а некоторые нет.Я пытаюсь прочитать один из листов значительно меньшего размера, простой 2 столбец - 500 строк, используя следующую строку кода:

df = pd.read_excel('C:/Data.xlsx', sheetname='Contracts')

Однако это чтение занимает невероятное количество времени, тогда каклист автономный в Excel нет.Есть ли причина для этого?

1 Ответ

0 голосов
/ 28 ноября 2018

Я попытался взглянуть на API, чтобы понять, как работает функция для его обработки, но ничего не получилось.Несколько замечаний:

1) при условии, что вы используете 0,21,0 на палатах, вы хотите использовать имя листа вместо имени листа

2) в соответствии с: https://realpython.com/working-with-large-excel-files-in-pandas/ скоростьof pandas напрямую зависит от вашей оперативной памяти.

3) функция read_excel открывает весь файл excel и затем выбирает конкретный лист, заставляя также загружать эти сверхдлинные листы.Вы можете проверить это, просто превратив короткий лист в отдельный файл Excel, а затем запустив read_excel для вашего нового файла.

Надеюсь, это поможет

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...