Каковы недостатки использования листа Excel вместо csv с pandas? - PullRequest
0 голосов
/ 09 мая 2020

Я делаю свою собственную простую электронную таблицу для программы «заметок». По сути, у меня есть таблица Excel с двумя столбцами: вопрос, ответ. Идея состоит в том, что программа задает вопрос, вы даете свой ответ, а затем проверяете, правы ли вы. Точно так же, как и с рукописными карточками.

Я создаю набор данных карточки примечаний в Excel, и для сохранения форматирования в Excel я сохраняю файлы с расширением xlsx. Теперь я пишу код как таковой:

pd.read_excel("filename.xlsx")

Каковы недостатки этого подхода? Я заметил огромную разницу в размере файлов между CSV и XLSX, но имеет ли это значение для небольших наборов данных? pandas значительно медленнее при чтении таблиц Excel?

Я настолько привык к CSV при анализе данных, что мне кажется неправильным использовать xlsx. Это не проблема?

1 Ответ

4 голосов
/ 09 мая 2020

Помимо размеров файлов, чтение файлов Excel также происходит медленнее, чем CSV, поскольку при этом сохраняется форматирование данных. Однако это может быть тривиальным фактором, если ваш набор данных невелик.

Главный вопрос, вы должны спросить, нужно ли вам форматирование данных Excel для вашей системы? Если можно использовать csv, вы всегда должны использовать его go.

...