Я работаю над большой проблемой, которая оценивает читаемость кода в соответствии с заданными c метриками. Проблема в том, что нет «основополагающей правды», поэтому мне нужно внедрить кластеризацию (вместо классификации) в моих данных, а затем назначить значения для каждого кластера в соответствии с моим личным мнением / интерпретацией.
На этапе предварительной обработки я хочу разделить мои образцы кода в соответствии с их размером (1D-кластеризация), чтобы оценивать сегменты большого кода независимо от маленьких и наоборот (выбирайте разные метрики для оценки).
Я использую k-means
для разделения данных в соответствии с их размером ( всего логических строк кода ). Это распределение плюс кластеры, которые я получаю:
1a) Насколько плохо, что кластеры так близко (разделение)?
1b) Стоит ли мне сбрасывать значения около 20, чтобы кластеры были более разделенными.
2) Насколько это плохо что первый кластер настолько плотный (маленькие фрагменты), а второй - редкий?