Резюме: я пытаюсь предсказать категорические аспекты судебного дела (например, результаты), используя RandomForestClassifier
Склеарна на наборе данных, который составляет приблизительно 1000 строк х 20 столбцов.Я знаю, что адвокаты истцов являются важным фактором в этом, и в этом типе случаев обычно есть 2 или 3 адвоката истцов в одной юридической фирме и 2 или 3 в другой юридической фирме по тому же делу.
У меня есть столбец в DataFrame со списком адвокатов по делу.Есть ~ 1000 строк и ~ 200 уникальных имен адвокатов.Одним из способов справиться с этим было бы одно горячее кодирование имен адвокатов с помощью pd.get_dummies()
Это приводит к переоснащению или действительно плохим моделям (R ^ 2: 0,2)
Любые идеи относительно лучшего решения, учитывая мой родственникмаленький размер набора данных?Может быть, использовать get_dummies только если они появляются более чем n раз в наборе данных?Любой способ использовать мои списки, кроме одной горячей кодировки?
Например:
index attorney_name
0 [A1,A2,A3]
1 [A2]
2 [A6]
3 [A2,A19]
… …
1004 [A200,A201]
1005 [A202]