У меня есть наборы данных, которые я хотел бы сохранить с кодом анализа.Иногда данные являются двоичными, а иногда их текст, то есть файлы CSV.Наборы данных могут стать большими (более подробно ниже), поэтому я в первую очередь хочу использовать git LFS для хранения наборов данных с хранилищами кода.Однако файлы никогда не меняются.
Я хотел бы сохранить наборы данных в git по двум причинам.
- В прошлом я случайно удалял или изменял данные, которые отнимают много времени или их невозможно запомнить.
- Я хотел бы иметь возможность получать код и данные одновременно, чтобы упростить процесс возврата в проект.
Большинство моих наборов данных имеют файлы размером от 10 МБ до 1 ГБ, а общий размер набора данных составляет от 1 ГБ до 100 ГБ.Мои самые большие наборы данных содержат файлы размером до 100 ГБ и имеют общий размер, превышающий 2 ТБ.Хотя я предполагаю, что git может вообще не работать для этих чрезвычайно больших наборов.
Мне интересно
- Имеет ли смысл использовать git lfs для моих наборов данных, если они не меняются?Кажется, что самое большое преимущество git lfs (отсутствие необходимости хранить историю разных версий большого бинарного файла в репо) - спорный вопрос в моем случае, поскольку существует только одна версия данного файла.
- Иногда я вижу, что мне нужно удалить набор данных, будет ли LFS лучше работать для этого варианта использования?
- Есть ли лучший способ сделать то, что я пытаюсь сделать?
Спасибо!