У меня есть серия больших (и плохо отформатированных) таблиц Excel, которые я пытаюсь обработать с помощью pandas. Каждый файл Excel содержит 50-60 листов, и меня интересует только подмножество листов в каждом файле.
Я попытался прочитать всю электронную таблицу как объект pd.ExcelFile
, поэтому я могу использовать атрибут sheet_names
для разбора отдельных листов (и я не знаю имен каждого листа заранее) , Это работает - но кажется исключительно медленным (около минуты для каждого файла ~ 30 МБ excel).
Я могу только предположить, что это происходит потому, что каждый лист анализируется при инициализации объекта pd.ExcelFile
(... может быть неправильно?). Если да, есть ли способ предотвратить такое поведение? - Я действительно хочу получить только имена листов, а затем проанализировать указанные листы c.
Заранее спасибо!