Я новичок в использовании R для интеллектуального анализа текста, и у меня возникают проблемы с пониманием разницы между установкой нижнего предела элемента управления (например, list (global = c (lower, Inf)) в DocumentTermMatrix (), и не установить предел, но вместо этого использовать removeSparseTerms (корпус, процент).
Я использовал более низкую = 0,005 * Number_of_docs и процентную долю = 0,995 и получил разные сводки для каждого.