Допустим, у меня есть этот DataFrames с 3 миллионами строк и 17 миллионов различий продуктов
DataFrame A (Операции)
id | codoper | CodProd | valor
-------------------------------
1 | 00001 | 55 | 45000
2 | 00001 | 18 | 45000
3 | 00002 | 33 | 53000
1 | 00001 | 55 | 45000
Я хотел бы применить модель кластеризации, но если я Поместите продукты в столбцы, чтобы сгенерировать кадр данных, подобный следующему:
id | codoper |valor | Product_18| Product_22| Product_33| Product_55| Product_67 | ......
----------------------------------------------------------------------------------------
1 | 00001 |45000 | 1 | 0 | 0 | 1 | 0 | ......
2 | 00002 |53000 | 0 | 0 | 1 | 0 | 0 | ......
Проблема заключается в том, что для отправки значения для классификации в модели вам нужно будет отправить 17000 тысяч переменных продукта
Любая идея, что лог c я могу применить, чтобы не отправлять так много переменных?
спасибо