Корреляция в тексте с использованием R - PullRequest
1 голос
/ 11 октября 2011

Мои данные выглядят так (пример)

ID     Col1     Col2
1232   ABCSD    abd
2342   ABCSD    esw
7643   ABCSD    rty
9821   ETHS     fvc

У меня есть 2845428 таких строк.Я хочу выяснить, насколько коррелирует каждая пара в Col1 и Col2.Например,

ABCSD     abd     0.64
ETHS      fvc     0.23

Как я могу использовать R?Спасибо

1 Ответ

1 голос
/ 11 октября 2011

Я предполагаю, что под корреляцией вы подразумеваете что-то вроде "какая часть наблюдений ABCSD имеет abd в Col2 ..."

Если ваши данные находятся в кадре с именем df,

#get the absolute frequency
freqs <- ftable(df[,2:3])  

#convert to relative frequency
freqs <- freqs/rowSums(freqs)

#then to get the format you want
library(reshape)
freqs <- melt(freqs)
...