Я работаю с набором скриптов Python, которые берут данные из файла Excel, настроенного для работы в качестве псевдобазы данных. Excel используется вместо программного обеспечения SQL из-за совместимости и требований доступа для других людей, с которыми я работаю и которые не знакомы с базами данных.
У меня есть набор из примерно 10 таблиц с несколькими записями в каждой и реляционными ключами, связывающими их все (опять же, в виде псевдосвязывания, с использованием некоторой надуманной проверки данных).
Используемые мной скрипты контролируются версией Git, и я знаю подводные камни при добавлении файла .xlsx
в репозиторий, поэтому я держал его в стороне. Поскольку данные немного уязвимы, я хочу убедиться, что у меня есть способ отслеживать любые изменения, которые мы вносим в них. Я думал, что у меня будет скрипт, который разбивает файл Excel на .csv
таблицы и добавляет их в репозиторий, т.е.
import pandas as pd
from pathlib import Path
excel_input_file = Path(r"<...>")
output_path = Path(r"<...>")
tables_dict = pd.read_excel(excel_input_file, sheet_name=None)
for i,x in tables_dict.items():
x.to_csv(output_path / (i+'.csv'), index=False)
Это обычно хороший метод для отслеживания входных файлов на каждом этапе?