DocumentTermMatrix (c, controls = ...) против removeSparseTerms () - PullRequest
0 голосов
/ 19 апреля 2019

Я новичок в использовании R для интеллектуального анализа текста, и у меня возникают проблемы с пониманием разницы между установкой нижнего предела элемента управления (например, list (global = c (lower, Inf)) в DocumentTermMatrix (), и не установить предел, но вместо этого использовать removeSparseTerms (корпус, процент).

Я использовал более низкую = 0,005 * Number_of_docs и процентную долю = 0,995 и получил разные сводки для каждого.

...