Я работаю над выявлением дубликатов претензий из области медицинского страхования. У меня есть очень несбалансированные данные - только 2% от общего числа заявок являются дубликатами из 100 миллионов записей. Этот набор данных имеет несколько столбцов, в которых количество уникальных значений превышает 150 тысяч . Я знаю, что однократное кодирование не является хорошим вариантом здесь, я делал числовое кодирование (заменяя фактические значения их счетчиками), как это влияет на производительность модели? Есть ли лучшие подходы в борьбе с высокой мощностью в PySaprk? Любое предложение будет с благодарностью.