Как использовать классификатор случайного леса в Python для 2 разных наборов данных? - PullRequest
0 голосов
/ 22 мая 2018

У меня есть 2 набора данных с разными переменными.Но оба включают переменную, скажем, NUM, которая помогает идентифицировать возникновение события.Благодаря NUM я смог идентифицировать событие, пометив его.Как можно запустить RF, чтобы эффективно включить соображения 2 наборов данных?Я не могу добавить их (по столбцам), так как количество записей для каждого NUM отличается.

Ответы [ 2 ]

0 голосов
/ 23 мая 2018

Вы можете попытаться поместить NUM в один столбец, и первый и второй наборы данных будут использовать полностью независимые столбцы с несовпадающими ячейками, содержащими пустые данные.Будут ли результаты хорошими, во многом будет зависеть от ваших данных.

0 голосов
/ 22 мая 2018

Исходя из того, как сформулирован ваш вопрос, я предполагаю, что у вас есть два кадра данных для панд.

Вы можете использовать pandas.merge, чтобы соединить их вместе.Все, что вам нужно сделать, это какое-то соединение.Слева может быть то, что вы ищете, но если вы хотите извлекать данные только там, где у вас есть значение NUM в обоих фреймах данных, используйте внутреннее соединение.

См. Документацию здесь: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html

Вот как это может выглядеть:

pd.merge(df1,df2,how='left',left_on='NUM')
...