корреляция между двумя данными - PullRequest
0 голосов
/ 24 июня 2019

Я хотел найти корреляцию между двумя терминами;Вероятность появления оскорбительных комментариев и Количество комментариев на пост, где Вероятность оскорбительных комментариев является Количество оскорбительных комментариев на пост / Общее количество комментариев на пост.

Мои данные содержат instagram все сообщения 50 пользователей с их комментариями.

Поэтому я использую метод .corr () (корреляция Пирсона): оба эти термина не являются частью моей колонки.Поэтому я рассчитал вероятность каждого поста каждого пользователя.Я буду использовать метод corr для моей новой таблицы.Я не могу проверить, правильный ли это подход для нахождения корреляции.

Затем я буду использовать этот код:

data = df[['Probability of abusive comments','Number of comments']]

correlation = data.corr(method='pearson')

1 Ответ

2 голосов
/ 25 июня 2019

Без просмотра примеров входных данных немного сложно понять, что вам нужно.Но следующие данные могут быть адаптированы к вашим данным:

import pandas as pd

d = ({
    'X' :    [1,4,5,6],
    'Y' :    [2,5,5,5],
})

df = pd.DataFrame(data=d)

correlation = df['X'].corr(df['Y'])
print(correlation) 

0.925820099773
...