У меня довольно большая книга Microsoft Excel, которую я анализирую с помощью Python / Pandas. Лист имеет одну ячейку, которая является датой загрузки данных. Эта ячейка находится выше того места, где находятся первичные данные, и поэтому она не загружается, когда я создаю Pandas DataFrames. Я хочу загрузить эту ячейку как единственную переменную, чтобы пользователь мог знать, когда данные были недавно обновлены.
Все решения, которые я нахожу в StackOverflow, включают создание нового DataFrame или использование другого пакета, такого как openpyxl
. Ни один из них не идеален по причинам производительности.
Код ниже работает нормально, но медленнее, чем хотелось бы.
filename = 'foobar.xlsx'
xl_file = pd.ExcelFile(filename)
#Get update date
data = xl_file.parse('Sheet1', skiprows=4, parse_cols=0)
updt_date = data.iloc[0,0]
Так, в частности, ячейка даты - это "A6", тогда как основные данные начинаются в строке 10 с заголовков в строке 9.
Есть какие-нибудь лучшие идеи?