Git с большими статическими файлами - PullRequest
1 голос
/ 15 апреля 2019

У меня есть наборы данных, которые я хотел бы сохранить с кодом анализа.Иногда данные являются двоичными, а иногда их текст, то есть файлы CSV.Наборы данных могут стать большими (более подробно ниже), поэтому я в первую очередь хочу использовать git LFS для хранения наборов данных с хранилищами кода.Однако файлы никогда не меняются.

Я хотел бы сохранить наборы данных в git по двум причинам.

  1. В прошлом я случайно удалял или изменял данные, которые отнимают много времени или их невозможно запомнить.
  2. Я хотел бы иметь возможность получать код и данные одновременно, чтобы упростить процесс возврата в проект.

Большинство моих наборов данных имеют файлы размером от 10 МБ до 1 ГБ, а общий размер набора данных составляет от 1 ГБ до 100 ГБ.Мои самые большие наборы данных содержат файлы размером до 100 ГБ и имеют общий размер, превышающий 2 ТБ.Хотя я предполагаю, что git может вообще не работать для этих чрезвычайно больших наборов.

Мне интересно

  • Имеет ли смысл использовать git lfs для моих наборов данных, если они не меняются?Кажется, что самое большое преимущество git lfs (отсутствие необходимости хранить историю разных версий большого бинарного файла в репо) - спорный вопрос в моем случае, поскольку существует только одна версия данного файла.
  • Иногда я вижу, что мне нужно удалить набор данных, будет ли LFS лучше работать для этого варианта использования?
  • Есть ли лучший способ сделать то, что я пытаюсь сделать?

Спасибо!

...