Ускорение анализа профилирования панд с помощью check_correlation? - PullRequest
6 голосов
/ 09 октября 2019

Использование профилирования панд для создания отчета. размер набора данных очень велик, чтобы ускорить обработку, я пытаюсь отключить корреляции, поэтому я использовал check_correlations из другого поста, который я видел, ValueError: Параметр конфигурации "check_correlation" не существует. в этом случае возникает проблема, возникающая при использовании этой строки

a = prof.ProfileReport(df, title='EXTRACTS', check_correlation=False)

, которая порождает эту проблему

ValueError: параметр конфигурации "check_correlation" не существует.

Ответы [ 2 ]

0 голосов
/ 10 октября 2019

Поскольку они изменили конфигурации в версии 2, вы можете использовать его как:

import pandas_profiling

profile = df.profile_report(check_correlation_pearson=False,
correlations={'pearson': False,
'spearman': False,
'kendall': False,
'phi_k': False,
'cramers': False,
'recoded': False})

, чтобы отключить корреляции. Тем не менее, это все еще не так быстро, как версия 1.4. Вы также можете исследовать другие конфигурации здесь .

0 голосов
/ 09 октября 2019

Пожалуйста, смотрите этот выпуск в проекте профилирования панд.

...