Трудно понять, какое исходное значение хранилось в Players_data, так как это неполный код другого пользователя; однако, исходя из того, что они делали, я предполагаю, что Players_data:
players_data = train_data
Но почему ??
Они использовали Алгоритм kmeans для создания 6 кластеров, представляющих следующие категории:
['Normal player', 'Waller', 'Experienced Player', 'Both', 'God', 'Aimbot']
В первых 5 переменных, используемых в vstack, у них есть информация от лучших игроков на 5 серверах. Они хотели использовать эту информацию и использовать ее для «обычных игроков».
В конце концов, они не использовали ни «train_data», ни «test_data»; однако в README.md они упомянули следующее:
Причина, по которой мы смешиваем данные из обычного набора данных, состоит в том, чтобы увеличить плотность обычных игроков и сделать кластеризацию жесткой. После теста мы считаем, что 2000 строк данных имеют лучшую производительность.
Важно отметить, что в данных поезда и теста они выбрали 4 столбца:
[3, 2, 28, 9]
Те же столбцы, которые использовались в "файлах с самыми высокими показателями"
def open_exl(address, idx):
data = xlrd.open_workbook(address)
table = data.sheets()[idx]
rows = table.nrows
ct_data = []
for row in range(rows):
ct_data.append(table.row_values(row))
return np.array(ct_data)[:, :4]
Поскольку в коде есть несоответствия, получить результаты, как они, может быть невозможно. ; тем не менее, это прекрасная возможность поиграть с данными и сравнить полученные результаты с результатами предыдущего исследования.