Я не получаю вашего предупреждающего сообщения, используя tidytext 0.1.9.900 и R 3.5.0.
DTM одинаковы для количества терминов, строк и столбцов. Также все подсчеты верны.
Разница действительно между $ dimnames $ Docs tt$dimnames$Docs
и AssociatedPress$dimnames$Docs
.
Причина этого заключается в том, что если в dtm нет никаких документов перед тем, как привести в порядок, как в случае с AssociatedPress, функция tidy назначает AssociatedPress $ i переменной документа в tidy_text (ap_td). Преобразование этого обратно в dtm заполнит $ Dimnames $ Docs значением документа из tidy_text data.frame (ap_td). Таким образом, в конце значения AssociatedPress $ i в итоге получат tt $ dimnames $ Docs.
Вы можете увидеть, что если вы сравните $ i из Associated Press с документами из tt.
all.equal(unique(as.character(AssociatedPress$i)), unique(tt$dimnames$Docs))
[1] TRUE
Или сравнение с AssociatedPress для ap_td с tt:
all.equal(unique(as.character(AssociatedPress$i)), unique(tt$dimnames$Docs), unique(ap_td))
[1] TRUE
Если вы хотите следовать логике самостоятельно, вы можете проверить все используемые функции на странице github для sparse_tidiers . Начните с tidy.DocumentTermMatrix
и следуйте вызовам функций до tidy.simple_triplet_matrix
и, наконец, до tidy_triplet
.