Это может быть потому, что необычно вычислять коэффициент корреляции между двумя двоичными категориальными переменными. Подумайте о графике рассеяния для двух таких переменных: у него будут точки только в четырех углах.
Более распространенным (если в конечном итоге эквивалентным) подходом для таких данных является просмотр парных таблиц непредвиденных обстоятельств, например, для Биографии и документальных фильмов:
Documentary
0 1
Biography 0 800 45
1 55 8
Это скажет вам, что 800 записей были классифицированы как ни один, 8 как оба, и было 45 документальных фильмов, которые не были биографиями, и 55 биографий, которые не были документальными фильмами. Теперь, чтобы увидеть, есть ли корреляция между этими двумя категориями (т.е. если вероятность того, что что-то является документальным фильмом, зависит от того, является ли это биографией и наоборот), вы можете выполнить тест на случай непредвиденных обстоятельств для этой таблицы.
Для этого в SciPy есть функция: scipy.stats.chi2_contingency ()
Чтобы получить таблицы сопряженности, вы можете использовать pandas. перекрестный ()