Я имею дело с задачей классификации (0/1). Набор данных был создан путем применения критериев фильтра к исходному набору дат, к которому я не могу получить доступ. Объекты - это критерии фильтра, которые были применены к исходному набору данных. Это означает, что есть измерение фильтра, которое говорит о категории, по которой были отфильтрованы данные, и одно или несколько значений фильтра. Хитрость заключается в том, что не существует фиксированного шаблона применения критериев фильтра, то есть количество измерений фильтра и значений фильтра отличаются для разных наблюдений.
Важно отметить взаимосвязь строк: обычно одна строка означает одно наблюдение, но здесь одно наблюдение может состоять из нескольких строк (все строки с одинаковым идентификатором принадлежат одному и тому же наблюдению). Цель состоит в том, чтобы предсказать, принадлежит ли наблюдение к положительному или отрицательному классу, указанному в столбце «цель».
Ребята, есть ли у вас какие-либо советы о том, как структурировать данные? Кроме того, существуют ли какие-либо конкретные алгоритмы машинного обучения, которые подходят для такого рода данных?
Мой подход до сих пор состоит в том, чтобы применять One Hot Encoding и использовать стандартные методы ML, такие как Random Forests или Boosting, которые, по-видимому, очень наивны и игнорируют взаимосвязь разных строк.
Спасибо! BigBrian
ID target Filter_Dimension Filter_Value
0 1 1 Country US
1 2 0 Country Mx
2 2 0 Product_Category Cat1
3 2 0 Product_Category Cat2
4 3 1 Country Mx
5 3 1 Product_Category Cat3
В моем наборе данных количество измерений фильтра и значений фильтра огромно.