Я пытаюсь построить случайную модель леса в Spark, используя sparklyr.Поскольку набор данных сильно несбалансирован, я попытался использовать метод избыточной выборки Synthetic Minority («Smote») и добился значительного увеличения значения отзыва с образцами данных, которые были извлечены в среду R.
Из-за огромного объема моего набора данных неэффективно извлекать данные в среду R.Я должен реализовать свою модель и разобраться с несбалансированными данными в Spark.Однако техника ударов не существует в пакете Sparklyr.Есть ли способ справиться с несбалансированными наборами данных в sparklyr?