Я работаю над созданием токенов ngram из вектора предложений.Некоторые из этих предложений имеют номера в строке.Я хочу найти триграммы каждого предложения, где числа игнорируются при поиске ngram, но не удаляются из него.
Например, если у меня есть строка: «это строка примера 2019», и я хочу найти триграммы из этого, я хочу получить обратно:
«это"," - это пример "," пример строки 2019 ".
library(tidyverse)
library(quanteda)
test_sentence <- "this is an example 2019 string"
ngrams <- test_sentence %>% tokens(., ngrams = 3, what = "fasterword", remove_numbers = FALSE, concatenator = " ")
tokens from 1 document.
text1 :
[1] "this is an" "is an example" "an example 2019" "example 2019 string"
Кто-нибудь знает, как игнорировать числа в триграмме?
Спасибо