У меня есть кадр данных, который выглядит примерно так:
df <- data.frame("index" = 1:10, "title" = c("Sherlock","Peaky Blinders","Eastenders","BBC News", "Antiques Roadshow","Eastenders","BBC News","Casualty", "Dragons Den","Peaky Blinders"), "date" = c("01/01/20","01/01/20","01/01/20","01/01/20","01/01/20","02/01/20","02/01/20","02/01/20","02/01/20","02/01/20"))
Вывод выглядит так:
Index Title Date
1 Sherlock 01/01/20
2 Peaky Blinders 01/01/20
3 Eastenders 01/01/20
4 BBC News 01/01/20
5 Antiques Roadshow 01/01/20
6 Eastenders 02/01/20
7 BBC News 02/01/20
8 Casualty 02/01/20
9 Dragons Den 02/01/20
10 Peaky Blinders 02/01/20
Я хочу иметь возможность определить, сколько раз Название появляется в разные даты. В приведенном выше примере «BB C News», «Peaky Blinders» и «Eastenders» все появятся 01.01.20 и 02.01.20. Таким образом, сходство между двумя датами составляет 60% (3 из 5 заголовков одинаковы для обеих дат).
Вероятно, также стоит упомянуть, что фактический фрейм данных намного больше и имеет 120 заголовков в день, и охватывает около 700 дней. Мне нужно сравнить «заголовки» каждой «даты» с предыдущей «датой», а затем вычислить их сходство. Таким образом, чтобы быть ясным, мне нужно определить сходство 01.01.20 с 01.02.20, 02.01.20 с 03.01.20, 03.01.20 с 04.01.20, и так на ...
Кто-нибудь знает, как я могу go сделать это? Моя конечная цель - использовать Tableau для визуализации сходства / различия во времени, но я боюсь, что такой расчет будет слишком сложным для этого конкретного программного обеспечения, и мне придется каким-то образом добавить его в реальные данные.