Я пытаюсь подсчитать общее количество компаний, связанных с каждым активным инвестором.
'df' представляет мой исходный фрейм данных, в котором столбец 'active_investors' отображает список активных инвесторов для каждой из перечисленных компаний.Например, одна строка может содержать Компанию А, в которой перечислены инвесторы 1,2,3,4.
Я пытаюсь разбить информационный фрейм так, чтобы он отображал компанию А в виде четырех отдельных строк, то есть для каждого инвестора.1, 2, 3 и 4.
Пока у меня есть следующий код:
#Separate names of investors for each company
df1 = df %>% separate_rows(active_investors, sep = ",")
#Total number of companies each investor has invested in
investor = aggregate(data.frame(count = df1$company_name), list(active_investors = df1$active_investors), length)
Проблема в том, что некоторые инвесторы перечислены дважды, то есть одно и то же имя инвестора, но перечисленыкак два отдельных инвестора.Я не уверен, как скомпилировать частоты (т. Е. Общее количество компаний, в которые инвестировал инвестор), чтобы эти дубликаты были удалены.