У меня есть набор данных с несколькими переменными. Я хочу разбить набор данных на две группы, и я хочу, чтобы разница в этих двух группах была как можно меньше.Предположим, у меня есть переменная price
, я хочу, чтобы у двух последних групп была минимальная разница в их общей цене.Количество записей в каждой группе не так критично.Я хочу, чтобы последние две группы имели минимальную разницу в общих значениях выбранных переменных.Решение предпочтительно на питоне.
Пример данных:
Значение ID V1 V2 V3 V4 V5
1 $ 31 350,00 14,33% 732 120 23,6% 26%
2$ 9 240,00 14,33% 120 30,4% 34%
3 $ 12 257,00 6,45% 797 36 1,4% 4%
Поэтому я хочу разделить этот набор данных на две группы таким образом, чтобы группы имели минимальную разницу в общем количествезначение, среднее v1, v2, v3, v4, v5