Краткий вопрос, поскольку я пытаюсь сопоставить кавычки в токене предложения, используя функцию Quanteda tokens_lookup()
и valuetype="regex"
. Основываясь на информации, предоставленной здесь о вкусе регулярных выражений, который использует Quanteda, я подумал, что способ go with будет \Q ... \E
, но это не помогло.
library(quanteda)
# package version: 1.5.2
text <- c("text „some quoted text“ more text", "text « some quoted text » more text")
dict <- dictionary(list(MY_KEY = c("\Q*\E")))
# Error: '\Q' is an unrecognized escape in character string starting ""\Q"
Я также пытался сопоставить кавычки напрямую "“"
, что, по крайней мере, кажется допустимым шаблоном регулярного выражения, но в конце концов это тоже не сработало. Также не было вариантов \Q...\E
с двойной обратной косой чертой, поскольку они используются для границ слов, например (\\b
).
Так что более общий вопрос, который я считаю, заключается в том, упоминаются ли здесь регулярные выражения совместимы с тем, что Quanta понимает как valuetype="regex"
.
EDIT:
Это сработало для первой строки, но не для второй.
dict <- dictionary(list(MY_KEY = c(".\".")))