Question

У меня есть наборы данных, которые я хотел бы сохранить с кодом анализа.Иногда данные являются двоичными, а иногда их текст, то есть файлы CSV.Наборы данных могут стать большими (более подробно ниже), поэтому я в первую очередь хочу использовать git LFS для хранения наборов данных с хранилищами кода.Однако файлы никогда не меняются.

Я хотел бы сохранить наборы данных в git по двум причинам.

В прошлом я случайно удалял или изменял данные, которые отнимают много времени или их невозможно запомнить.
Я хотел бы иметь возможность получать код и данные одновременно, чтобы упростить процесс возврата в проект.

Большинство моих наборов данных имеют файлы размером от 10 МБ до 1 ГБ, а общий размер набора данных составляет от 1 ГБ до 100 ГБ.Мои самые большие наборы данных содержат файлы размером до 100 ГБ и имеют общий размер, превышающий 2 ТБ.Хотя я предполагаю, что git может вообще не работать для этих чрезвычайно больших наборов.

Мне интересно

Имеет ли смысл использовать git lfs для моих наборов данных, если они не меняются?Кажется, что самое большое преимущество git lfs (отсутствие необходимости хранить историю разных версий большого бинарного файла в репо) - спорный вопрос в моем случае, поскольку существует только одна версия данного файла.
Иногда я вижу, что мне нужно удалить набор данных, будет ли LFS лучше работать для этого варианта использования?
Есть ли лучший способ сделать то, что я пытаюсь сделать?

Спасибо!

Git с большими статическими файлами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Git с большими статическими файлами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы