Разница в используемых методах.
str_extract_all
с boundary("word")
удаляет знаки препинания в предложениях. Превращение текста в матрицу терминов документа - нет. Чтобы получить одинаковые номера, вам нужно использовать DocumentTermMatrix(test1, control = list(removePunctuation = TRUE))
.
Подробное объяснение:
В первом случае: «это текст». вернет четыре слова без точки. Во втором случае вы получите текст с точкой («текст») в матрице терминов документа. Теперь, если текст выглядит так: «текст и текст». первый случай будет считать «текст» = 2, а матрица термина документа будет считать его «текст» = 1 и «текст». = 1.
Использование removePunction удалит период, и количество будет равно.
Возможно, вы также захотите сначала удалить числа, потому что removePunctuation удаляет точки и запятые из чисел.