У меня возникли проблемы с получением правильного текста после того, как я остановился на R.
Например. «papper» должен отображаться как «papper», но вместо этого отображается как «papp», «projekt» становится «projek».
Созданное таким образом частотное облако показывает эти сокращенные версии, которые теряют фактическое значение или становятся непонятными.
Что я могу сделать, чтобы избавиться от этой проблемы? Я использую последнюю версию снежного кома (0.6.0).
R код:
library(tm)
library(SnowballC)
text_example <- c("projekt", "papper", "arbete")
stem_doc <- stemDocument(text_example, language="sv")
stem_doc
Expected:
stem_doc
[1] "projekt" "papper" "arbete"
Actual:
stem_doc
[1] "projek" "papp" "arbet"