Git фиксация классификации - PullRequest
1 голос
/ 07 февраля 2020

Я хочу визуализировать статистику коммитов в нашем проекте. Я хотел бы классифицировать их по нескольким группам на основе некоторых метрик, таких как сообщения о коммитах или количество измененных строк кода.

Существует ли какой-либо системный подход c, который я могу использовать? У меня проблемы с выбором правильных ключевых слов для классификации сообщений фиксации и с выбором правильных порогов для классификации по размеру.

1 Ответ

0 голосов
/ 12 февраля 2020
  1. Если вы стремитесь к анализу сообщений фиксации * только 1004 * , вы, вероятно, захотите использовать Обработка естественного языка (NLP) инструменты. Хорошей отправной точкой может стать книга Tidy Text Mining . Этот ресурс предназначен для R, но предлагает краткое введение, если вы еще не знакомы с терминами Term Frequencies (TF) или обратные частоты документов (tdf). Вы бы начали с простой гистограммы слов, но чтобы иметь возможность делать утверждения на основе этого, вам нужно настроить стоп-слова и, вероятно, выполнить много других предварительных обработок, таких как слово stemming .

  2. Если вас интересуют общие метрики вашего GIT проекта (не ограничиваются коммит-сообщениями), я рекомендую взглянуть на Сильвио Монтанари Code-Forensics project :

    code-forensics - это набор инструментов для анализа кодовых баз, хранящихся в системе контроля версий. Он использует журналы репозитория или данные истории версий для проведения глубокого анализа в отношении сложности, логической связи, связи авторов и для проверки эволюции во времени различных частей программной системы в отношении таких метрик, как отток кода и количество ревизий. .

  3. Ценная информация о коммите уже скрыта в тегах GIT , если они используются в вашем проекте. Для начала вы можете попробовать git log --graph --oneline --simplify-by-decoration, который дает вам GIT дерево тегов .

Отказ от ответственности: Я не связан с двумя упомянутыми веб-сайтом / проектом, но я действительно задал связанный SO-вопрос.

...