Подпадает под категорию "другой подход". Похоже, вы делаете токенизацию по словам, отбрасывая числа.
library(tokenizers)
unlist(tokenize_words(stringTest, lowercase = FALSE, strip_numeric = TRUE))
Что дает:
[1] "Here" "we" "have" "words" "Here" "we" "have" "avwerfaf"
Если вы работаете вне фрейма данных, что-то вроде это может быть полезно.
library(dplyr)
library(tidytext)
df <- tibble(description = stringTest)
df2 <- df %>%
rowid_to_column() %>%
unnest_tokens(word, description, to_lower = FALSE, strip_numeric = TRUE)
, который возвращает новый тиббл:
> df2
# A tibble: 8 x 2
rowid word
<int> <chr>
1 1 Here
2 1 we
3 1 have
4 1 words
5 2 Here
6 2 we
7 2 have
8 2 avwerfaf