Отфильтрованные данные - структура данных и алгоритм прогнозирования - PullRequest
1 голос
/ 14 октября 2019

Я имею дело с задачей классификации (0/1). Набор данных был создан путем применения критериев фильтра к исходному набору дат, к которому я не могу получить доступ. Объекты - это критерии фильтра, которые были применены к исходному набору данных. Это означает, что есть измерение фильтра, которое говорит о категории, по которой были отфильтрованы данные, и одно или несколько значений фильтра. Хитрость заключается в том, что не существует фиксированного шаблона применения критериев фильтра, то есть количество измерений фильтра и значений фильтра отличаются для разных наблюдений.

Важно отметить взаимосвязь строк: обычно одна строка означает одно наблюдение, но здесь одно наблюдение может состоять из нескольких строк (все строки с одинаковым идентификатором принадлежат одному и тому же наблюдению). Цель состоит в том, чтобы предсказать, принадлежит ли наблюдение к положительному или отрицательному классу, указанному в столбце «цель».

Ребята, есть ли у вас какие-либо советы о том, как структурировать данные? Кроме того, существуют ли какие-либо конкретные алгоритмы машинного обучения, которые подходят для такого рода данных?

Мой подход до сих пор состоит в том, чтобы применять One Hot Encoding и использовать стандартные методы ML, такие как Random Forests или Boosting, которые, по-видимому, очень наивны и игнорируют взаимосвязь разных строк.

Спасибо! BigBrian

    ID  target Filter_Dimension Filter_Value
0   1       1           Country           US
1   2       0           Country           Mx
2   2       0  Product_Category         Cat1
3   2       0  Product_Category         Cat2
4   3       1           Country           Mx
5   3       1  Product_Category         Cat3

В моем наборе данных количество измерений фильтра и значений фильтра огромно.

...