R и контроль версий для аналитика данных соло - PullRequest
147 голосов
/ 26 апреля 2010

Многие аналитики данных, которых я уважаю, используют контроль версий. Например:

Однако я оцениваю целесообразность внедрения системы контроля версий, такой как git.

Краткий обзор: Я социолог, который использует R для анализа данных для научных публикаций. В настоящее время я не делаю R пакетов. Мой R-код для проекта обычно включает несколько тысяч строк кода для ввода данных, очистки, манипуляции, анализа и генерации вывода. Публикации обычно пишутся с использованием LaTeX.

Что касается контроля версий, я прочитал о многих преимуществах, но, похоже, они менее актуальны для соло-аналитика данных.

  • Резервное копирование: У меня уже есть резервная система.
  • Форкировка и перемотка: Я никогда не чувствовал необходимости делать это, но я вижу, как это может быть полезно (например, вы готовите несколько журнальные статьи, основанные на том же наборе данных; вы готовите отчет обновляется ежемесячно и т. д.)
  • Сотрудничество: Большую часть времени я нахожусь анализируя данные сам, таким образом, я не получит сотрудничество Преимущества контроля версий.

Существует также несколько потенциальных затрат, связанных с внедрением контроля версий:

  • Время для оценки и изучения системы контроля версий
  • Возможное увеличение сложности по сравнению с моей нынешней системой управления файлами

Однако у меня все еще есть чувство, что я что-то упустил. Общие руководства по управлению версиями, похоже, больше адресованы ученым, чем аналитикам данных.

Таким образом, конкретно в отношении данных аналитиков при обстоятельствах, аналогичных перечисленным выше:

  1. Стоит ли контролировать версию?
  2. Каковы основные плюсы и минусы внедрения контроля версий?
  3. Какая хорошая стратегия для начала работы с контролем версий для анализа данных с помощью R (например, примеры, идеи рабочего процесса, программное обеспечение, ссылки на руководства)?

Ответы [ 13 ]

4 голосов
/ 10 июня 2011

Dropbox имеет систему управления версиями "ppor man", которая позволяет вам без особых усилий получить массу возможностей.

4 голосов
/ 26 апреля 2010

Я также занимаюсь написанием сценариев в одиночку и обнаружил, что это упрощает, а не усложняет. Резервное копирование интегрировано в рабочий процесс кодирования и не требует отдельного набора процедур файловой системы. Время, необходимое для изучения основ любой системы контроля версий, определенно будет хорошо потрачено.

4 голосов
/ 26 апреля 2010

Контроль версий для сольной разработки (любого рода) действительно интересен для:

  • изучение истории и сравнение текущей работы с прошлыми коммитами
  • ветвление и пробование разных версий для одного и того же набора файлов

Если вы не видите, как выполняете одну из этих двух основных функций контроля версий, вам может понадобиться простой инструмент резервного копирования.
Если вам нужны эти функции, то вы также получите резервную копию (например, git bundle)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...