SKLearn / Tabluar Data: Как работать с элементами DataFrame, которые содержат списки, кроме одной горячей кодировки? - PullRequest
0 голосов
/ 25 февраля 2019

Резюме: я пытаюсь предсказать категорические аспекты судебного дела (например, результаты), используя RandomForestClassifier Склеарна на наборе данных, который составляет приблизительно 1000 строк х 20 столбцов.Я знаю, что адвокаты истцов являются важным фактором в этом, и в этом типе случаев обычно есть 2 или 3 адвоката истцов в одной юридической фирме и 2 или 3 в другой юридической фирме по тому же делу.

У меня есть столбец в DataFrame со списком адвокатов по делу.Есть ~ 1000 строк и ~ 200 уникальных имен адвокатов.Одним из способов справиться с этим было бы одно горячее кодирование имен адвокатов с помощью pd.get_dummies() Это приводит к переоснащению или действительно плохим моделям (R ^ 2: 0,2)

Любые идеи относительно лучшего решения, учитывая мой родственникмаленький размер набора данных?Может быть, использовать get_dummies только если они появляются более чем n раз в наборе данных?Любой способ использовать мои списки, кроме одной горячей кодировки?

Например:

index   attorney_name
0       [A1,A2,A3]
1       [A2]
2       [A6]
3       [A2,A19]
…       …
1004    [A200,A201]
1005    [A202]
...