Я создал DocumentTermMatrix, похожий на тот, что приведен в этом посте:
Сохранить идентификатор документа с помощью R corpus
Где я сохранил doc_id, чтобы я мог присоединить данные к большему набору данных.
Моя проблема в том, что я не могу понять, как суммировать слова и количество слов и хранить doc_id. Я хотел бы иметь возможность присоединить эти данные к существующему набору данных, используя только 3 столбца (doc_id, word, freq).
Без необходимости doc_id, это просто, и я использую этот код, чтобы получить мой конечный результат.
df_source=DataframeSource(df)
df_corpus=VCorpus(df_source)
tdm=TermDocumentMatrix(df_corpus)
tdm_m=as.matrix(tdm)
word_freqs=sort(rowSums(tdm_m), decreasing = TRUE)
tdm_sorted=data.frame(word = names(word_freqs), freq = word_freqs)
Я пробовал несколько разных подходов к этому и просто не могу заставить его работать. Вот где я сейчас ( image ). Я использовал этот код:
tdm_m=cbind("doc.id" =rownames(tdm_m),tdm_m)
чтобы переместить doc_id в столбец в матрице, но не удалось получить числовые столбцы для суммирования и сохранить связанный doc_id.
Любая помощь, очень признателен, спасибо!
Ожидаемый результат:
doc.id | слово | частота
1 | Яблоко | 2
2 | Яблоко | 1
3 | Банан | 4
3 | Оранжевый | 1
4 | Груша | 3