Создайте токены ngram, игнорируя числа, но не удаляя их из ngram - PullRequest
0 голосов
/ 14 апреля 2019

Я работаю над созданием токенов ngram из вектора предложений.Некоторые из этих предложений имеют номера в строке.Я хочу найти триграммы каждого предложения, где числа игнорируются при поиске ngram, но не удаляются из него.

Например, если у меня есть строка: «это строка примера 2019», и я хочу найти триграммы из этого, я хочу получить обратно:

«это"," - это пример "," пример строки 2019 ".

library(tidyverse)
library(quanteda)

test_sentence <- "this is an example 2019 string" 

ngrams <- test_sentence %>% tokens(., ngrams = 3, what = "fasterword", remove_numbers = FALSE, concatenator = " ")

tokens from 1 document.
text1 :
[1] "this is an"          "is an example"       "an example 2019"     "example 2019 string"

Кто-нибудь знает, как игнорировать числа в триграмме?

Спасибо

...