Данные не идеально чисты, но используются без проблем с пандами.
Библиотека панд предоставляет множество чрезвычайно полезных функций для EDA.
Но когда я использую профилирование для больших данных, то есть 100 миллионов записей с 10 столбцами, считывая их из таблицы базы данных, оно не завершается, и на моем ноутбуке заканчивается память, размер данных в csv составляет около 6 ГБ, и мой Объем оперативной памяти составляет 14 ГБ, мое свободное время составляет примерно 3-4 ГБ.
df = pd.read_sql_query("select * from table", conn_params)
profile = pandas.profiling.ProfileReport(df)
profile.to_file(outputfile="myoutput.html")
Я также пробовал с опцией check_recoded = False.
Но это не помогает в профилировании полностью.
Есть ли способ разбить на части и прочитать данные и, наконец, создать сводный отчет в целом? ИЛИ любой другой способ использовать эту функцию с большим набором данных.