У меня есть DocumentTermMatrix data_tags с 80 000 строк (групп тегов) и 900 000 столбцов, так что 900 000 различных тегов.С помощью findFreqTerms (data_tags, 2) я обнаружил, что около 462 000 тегов являются уникальными.
Я хочу создать функцию, в которой происходят 2 вещи: - удалить эти 462 000 столбцов, чтобы только теги с частотой 2 или болееоставил;- создать 1 новый столбец (Uniques): sum () для каждой строки всех уникальных тегов, которые были удалены.
tag1 tag2 tag3 tag4
1 0 0 1 0
2 0 1 0 0
2 1 0 0 0
3 1 0 0 0
4 0 1 0 1
5 1 0 0 0
6 0 1 0 0
например, тег 3 и тег 4 не являются обязательными (только один раз появляется в столбце):
tag1 tag2 Uniques
1 0 0 1
2 0 1 0
2 1 0 0
3 1 0 0
4 0 1 1
5 1 0 0
6 0 1 0
Заранее спасибо за помощь.