У меня есть каталог, содержащий около 10 CSV-файлов, все огромные наборы данных с 50M + строк. Я хочу создать цикл для
- читать их по одному
- рассчитать статистику коробочного графика с использованием функции квантиля для каждого набора данных
- объединить эту статистику в один фрейм данных
Есть идеи, как мне это сделать?
Вот как я ожидаю, что результирующий df будет выглядеть, столбцы, состоящие из объектов и квантилей вероятности.
features 25% 50% 75%
Age 24 28 35
Height 161 175 194