Многие аналитики данных, которых я уважаю, используют контроль версий.
Например:
Однако я оцениваю целесообразность внедрения системы контроля версий, такой как git.
Краткий обзор:
Я социолог, который использует R для анализа данных для научных публикаций.
В настоящее время я не делаю R пакетов.
Мой R-код для проекта обычно включает несколько тысяч строк кода для ввода данных, очистки, манипуляции, анализа и генерации вывода.
Публикации обычно пишутся с использованием LaTeX.
Что касается контроля версий, я прочитал о многих преимуществах, но, похоже, они менее актуальны для соло-аналитика данных.
- Резервное копирование: У меня уже есть резервная система.
- Форкировка и перемотка: Я никогда не чувствовал необходимости делать это,
но я вижу, как это может быть полезно (например, вы готовите несколько
журнальные статьи, основанные на том же наборе данных; вы готовите отчет
обновляется ежемесячно и т. д.)
- Сотрудничество: Большую часть времени я нахожусь
анализируя данные сам, таким образом, я
не получит сотрудничество
Преимущества контроля версий.
Существует также несколько потенциальных затрат, связанных с внедрением контроля версий:
- Время для оценки и изучения системы контроля версий
- Возможное увеличение сложности по сравнению с моей нынешней системой управления файлами
Однако у меня все еще есть чувство, что я что-то упустил.
Общие руководства по управлению версиями, похоже, больше адресованы ученым, чем аналитикам данных.
Таким образом, конкретно в отношении данных аналитиков при обстоятельствах, аналогичных перечисленным выше:
- Стоит ли контролировать версию?
- Каковы основные плюсы и минусы внедрения контроля версий?
- Какая хорошая стратегия для начала работы с контролем версий
для анализа данных с помощью R (например, примеры, идеи рабочего процесса, программное обеспечение, ссылки на руководства)?