Матрица из метода corr () отображает не все функции - PullRequest
0 голосов
/ 14 апреля 2020

Я использовал метод corr () в кадре данных, и в полученной матрице отсутствуют функции. Я посмотрел на похожий вопрос, заданный ранее , но он не устранил мою проблему. Рассматриваемые столбцы имеют тип int64. Эти функции отображаются, когда я использую парный сюжет из seaborn.

Все отсутствующие функции являются преобразованными категориальными значениями (т. Е. Имя объекта / столбца - «Фантазия жанра», и оно принимает значение 0 или 1, в зависимости от того, вписывается ли произведение в жанр фэнтези).

РЕДАКТИРОВАТЬ:

Вот столбцы базы данных:

Domestic Rank             908 non-null int64
Release                   908 non-null object
Distributor               908 non-null object
Rating                    424 non-null object
Domestic_Earnings         908 non-null int64
International_Earnings    908 non-null int64
Runtime                   894 non-null float64
Release_Date              908 non-null datetime64[ns]
Genres                    908 non-null object
Biography                 908 non-null int64
Documentary               908 non-null int64
Drama                     908 non-null int64
History                   908 non-null int64
Music                     908 non-null int64
Film-Noir                 908 non-null int64
Romance                   908 non-null int64
Crime                     908 non-null int64
Mystery                   908 non-null int64
Musical                   908 non-null int64
Thriller                  908 non-null int64
Comedy                    908 non-null int64
Action                    908 non-null int64
War                       908 non-null int64
Sci-Fi                    908 non-null int64
News                      908 non-null int64
Family                    908 non-null int64
Short                     908 non-null int64
Reality-TV                908 non-null int64
Adult                     908 non-null int64
Sport                     908 non-null int64
Adventure                 908 non-null int64
Animation                 908 non-null int64
Horror                    908 non-null int64
Fantasy                   908 non-null int64
Western                   908 non-null int64

Запуск movies2019.drop(columns=['Domestic Rank','Domestic_Earnings']).corr() приводит к это матрица . Я бы ожидал, что в него войдут и отдельные жанры.

1 Ответ

2 голосов
/ 14 апреля 2020

Это может быть потому, что необычно вычислять коэффициент корреляции между двумя двоичными категориальными переменными. Подумайте о графике рассеяния для двух таких переменных: у него будут точки только в четырех углах.

Более распространенным (если в конечном итоге эквивалентным) подходом для таких данных является просмотр парных таблиц непредвиденных обстоятельств, например, для Биографии и документальных фильмов:

              Documentary
              0     1
Biography 0   800   45
          1   55    8

Это скажет вам, что 800 записей были классифицированы как ни один, 8 как оба, и было 45 документальных фильмов, которые не были биографиями, и 55 биографий, которые не были документальными фильмами. Теперь, чтобы увидеть, есть ли корреляция между этими двумя категориями (т.е. если вероятность того, что что-то является документальным фильмом, зависит от того, является ли это биографией и наоборот), вы можете выполнить тест на случай непредвиденных обстоятельств для этой таблицы.

Для этого в SciPy есть функция: scipy.stats.chi2_contingency ()

Чтобы получить таблицы сопряженности, вы можете использовать pandas. перекрестный ()

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...