Модель KNN со слишком большим количеством переменных - PullRequest
0 голосов
/ 19 февраля 2020

Допустим, у меня есть этот DataFrames с 3 миллионами строк и 17 миллионов различий продуктов

DataFrame A (Операции)

id | codoper | CodProd  | valor
-------------------------------
1  | 00001   | 55       | 45000
2  | 00001   | 18       | 45000
3  | 00002   | 33       | 53000
1  | 00001   | 55       | 45000

Я хотел бы применить модель кластеризации, но если я Поместите продукты в столбцы, чтобы сгенерировать кадр данных, подобный следующему:

id | codoper |valor | Product_18| Product_22| Product_33| Product_55| Product_67 | ......
----------------------------------------------------------------------------------------
1  | 00001   |45000 | 1         | 0         | 0         | 1         | 0          | ......
2  | 00002   |53000 | 0         | 0         | 1         | 0         | 0          | ......

Проблема заключается в том, что для отправки значения для классификации в модели вам нужно будет отправить 17000 тысяч переменных продукта

Любая идея, что лог c я могу применить, чтобы не отправлять так много переменных?

спасибо

...