Я пытаюсь токенизировать фрейм данных, содержащий строки.Некоторые содержат дефисы, и я хотел бы разбить токены на дефисы с помощью unnest_tokens ()
. Я попытался обновить tidytext с 0.1.9 до 0.2.0. Я попробовал несколько вариантов регулярных выражений, чтобы захватитьдефис от:
df <- data.frame(words = c("Solutions for the public sector | IT for business", "Transform the IT experience - IT Transformation - ITSM")
df %>%
unnest_tokens(query, words,
token = "regex",
pattern = "(?:\\||\\:|[-]|,)")
Я ожидаю увидеть:
query
solutions for the public sector
it for business
transform the it experience
it transformation
itsm
Вместо этого я получаю токенизированные строки без дефисов:
query
solutions for the public sector
it for business