Мы начали использовать dvc с git для управления версиями проектов машинного обучения.Для удаленного хранения в dvc мы используем облачное хранилище Google.
Наш набор данных - это набор данных OCR с более чем 100000 небольших изображений, общий размер которых составляет около 200 МБ.Используя dvc для отслеживания этого набора данных, мы столкнулись со следующими проблемами:
- Потребовалось много времени для добавления набора данных для отслеживания.
- Очень медленная загрузка.
- Очень медленная загрузка.
- Обновление / удаление / добавление только одного изображения в набор данных приводит к тому, что dvc пересчитывает много вещей: хэши и т. Д.
С другой стороны, еслимы архивируем наш набор данных и отслеживаем его, поскольку один файл dvc работает достаточно быстро. Но проблема в том, что мы не можем отслеживать изменения для конкретного файла.
Цель состоит в том, чтобы иметь контроль версий для набора данных сбольшое количество файлов со следующей функциональностью.
- Отслеживание для каждого отдельного файла.
- Передача только изменений, а не всего набора данных.
- Быстрая проверка / извлечение
Любое предложение для лучшего решения приемлемо.