PySaprk: обработка большого количества данных - PullRequest
0 голосов
/ 04 ноября 2019

Я работаю над выявлением дубликатов претензий из области медицинского страхования. У меня есть очень несбалансированные данные - только 2% от общего числа заявок являются дубликатами из 100 миллионов записей. Этот набор данных имеет несколько столбцов, в которых количество уникальных значений превышает 150 тысяч . Я знаю, что однократное кодирование не является хорошим вариантом здесь, я делал числовое кодирование (заменяя фактические значения их счетчиками), как это влияет на производительность модели? Есть ли лучшие подходы в борьбе с высокой мощностью в PySaprk? Любое предложение будет с благодарностью.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...