Я использую Proc HPBIN, чтобы разделить мои данные на равные интервалы, т. Е. Каждый сегмент имеет равную долю от общего диапазона переменной.
Моя проблема заключается в том, что я получаю чрезвычайно искаженные данные с большимспектр.Почти все мои точки данных лежат в одном ведре, в то время как вокруг крайностей разбросано несколько наблюдений.
Мне интересно, есть ли способ заставить PROC HPBIN учитывать соотношение значений в каждом бине иУдостоверьтесь, что есть хотя бы 5% наблюдений в корзине и сгруппируйте другие?
DATA var1;
DO VAR1 = 1 TO 100;
OUTPUT;
END;
DO VAR1 = 500 TO 505;
OUTPUT;
END;
DO VAR1 = 7000 TO 7015;
OUTPUT;
END;
DO VAR1 = 1000000 TO 1000010;
OUTPUT;
END;
RUN;
/*Use proc hpbin to generate bins of equal width*/
ODS EXCLUDE ALL;
ODS OUTPUT
Mapping = bin_width_results;
PROC HPBIN
DATA=var1
numbin = 15
bucket;
input VAR1 / numbin = 15;
RUN;
ODS EXCLUDE NONE;
Я хотел бы увидеть способ, которым proc hpbin или другой метод группирует ячейки, которые пусты и позволяют вминимум 5% пропорции на ведро.Тем не менее, я не собираюсь использовать процентили в этом случае (это другой график в моем pdf), потому что я хотел бы увидеть спред.