Как профилировать большие наборы данных с помощью профилирования Pandas? - PullRequest
0 голосов
/ 08 мая 2019

Данные не идеально чисты, но используются без проблем с пандами. Библиотека панд предоставляет множество чрезвычайно полезных функций для EDA.

Но когда я использую профилирование для больших данных, то есть 100 миллионов записей с 10 столбцами, считывая их из таблицы базы данных, оно не завершается, и на моем ноутбуке заканчивается память, размер данных в csv составляет около 6 ГБ, и мой Объем оперативной памяти составляет 14 ГБ, мое свободное время составляет примерно 3-4 ГБ.

    df = pd.read_sql_query("select * from table", conn_params)
    profile = pandas.profiling.ProfileReport(df)
    profile.to_file(outputfile="myoutput.html")

Я также пробовал с опцией check_recoded = False. Но это не помогает в профилировании полностью. Есть ли способ разбить на части и прочитать данные и, наконец, создать сводный отчет в целом? ИЛИ любой другой способ использовать эту функцию с большим набором данных.

Ответы [ 2 ]

0 голосов
/ 09 июля 2019

Возможность отключить проверку корреляции была добавлена ​​с реализацией проблемы # 43, которая не является частью последней версии pandas-profiling (1.4), доступной в PyPI.Это было реализовано после и будет доступно, я думаю, в следующей версии.В то же время, если вам это действительно нужно, вы можете загрузить текущую версию с github и использовать ее, например, добавив в свою PYTHONPATH.

! / Bin / sh

PROF_DIR = "$ HOME / Git / pandas-profiling / "

export PYTHONPATH =" $ PYTHONPATH: $ PROF_DIR "

блокнот Jupyter

0 голосов
/ 10 июня 2019

Пробовали ли вы использовать приведенную ниже опцию, так как при выполнении корреляционного анализа на больших полях свободного текста с использованием профилирования панд это может вызвать проблему?

df = pd.read_sql_query("select * from table", conn_params)
profile = pandas.profiling.ProfileReport(df, , check_correlation = False)

Пожалуйста, обратитесь к ссылке ниже Github для более подробной информации: https://github.com/pandas-profiling/pandas-profiling/issues/84

...