Основной биомедицинский текст Mining in R - PullRequest
0 голосов
/ 26 июня 2019

Я пытался провести базовый анализ текста в тезисах PubMed.Я получаю следующую ошибку при проверке матрицы моего документа.

Error in `[.simple_triplet_matrix`(dtm, 1:5, 1:20) : 
  subscript out of bounds

Код:

dtm <- DocumentTermMatrix(docs)
dtm
inspect(dtm[1:5, 1:20])

1 Ответ

0 голосов
/ 26 июня 2019

Сложно сказать, поскольку вы не приводите воспроизводимый пример, но я думаю, что размеры dtm меньше, чем [5, 20]. В приведенном ниже примере показано похожее сообщение об ошибке по этой причине.

# Load package
library(tm)
#> Loading required package: NLP

# Load data
data("crude")

# Create dtm
dtm <- DocumentTermMatrix(crude)

# Examine dimensions
dim(dtm)
#> [1]   20 1266

# Inspect dtm - no problems
inspect(dtm[1:5, 1:5])
#> <<DocumentTermMatrix (documents: 5, terms: 5)>>
#> Non-/sparse entries: 1/24
#> Sparsity           : 96%
#> Maximal term length: 10
#> Weighting          : term frequency (tf)
#> Sample             :
#>      Terms
#> Docs  ... "(it) "demand "expansion "for
#>   127   0     0       0          0    0
#>   144   0     0       1          0    0
#>   191   0     0       0          0    0
#>   194   0     0       0          0    0
#>   211   0     0       0          0    0

# Inspect outside of dimensions of dtm
inspect(dtm[1:21, 1:5])
#> Error in `[.simple_triplet_matrix`(dtm, 1:21, 1:5): subscript out of bounds

Создано в 2019-06-25 пакетом Представления (v0.2.1.9000)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...