Я вычисляю косинусное сходство для двух dfm
объектов. Одним из них является мой эталонный объект, который имеет размеры 5 x 4728, в то время как второй dfm
является моим целевым объектом и имеет размеры 2 325 329 x 40 595.
Что я не понимаю, так это то, почему textstat_simil()
возвращает NA. Я пытался воспроизвести «проблему», но пока не повезло. Вы можете найти данные по следующим ссылкам Dropbox. Имейте в виду, что цель dfm
содержит только первый документ.
- Ссылка dfm
- Цель dfm
Это код, который я использую. dfm_match()
увеличивает мою ссылку dfm
, чтобы соответствовать количеству объектов целевого объекта.
library(quanteda)
# make sure you load the two required dfms
reference_dfm = dfm_match(reference_dfm, featnames(target_dfm))
textstat_simil( target_dfm, reference_dfm, method = "cosine")
#> textstat_simil object; method = "cosine"
#> negative slightly_negative neutral slightly_positive positive
#> text1.1 NA NA NA NA NA
Есть идеи?