Предварительная обработка на обучении без учителя - PullRequest
0 голосов
/ 15 февраля 2020

Я работаю над большой проблемой, которая оценивает читаемость кода в соответствии с заданными c метриками. Проблема в том, что нет «основополагающей правды», поэтому мне нужно внедрить кластеризацию (вместо классификации) в моих данных, а затем назначить значения для каждого кластера в соответствии с моим личным мнением / интерпретацией.

На этапе предварительной обработки я хочу разделить мои образцы кода в соответствии с их размером (1D-кластеризация), чтобы оценивать сегменты большого кода независимо от маленьких и наоборот (выбирайте разные метрики для оценки).

Я использую k-means для разделения данных в соответствии с их размером ( всего логических строк кода ). Это распределение плюс кластеры, которые я получаю:

enter image description here

1a) Насколько плохо, что кластеры так близко (разделение)?

1b) Стоит ли мне сбрасывать значения около 20, чтобы кластеры были более разделенными.

2) Насколько это плохо что первый кластер настолько плотный (маленькие фрагменты), а второй - редкий?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...