Во-первых, приносим свои извинения за то, что не могу использовать полностью китайский текст. Но вот президентское обращение, в которое я позволил себе вставить ваши слова на мандаринском диалекте:
data <- "I stand here today humbled by the task before us 抗美 援朝,
grateful for the trust you have bestowed, mindful of the sacrifices borne by our ancestors.
I thank President Bush for his service to our nation,
as well as the generosity and cooperation he has shown throughout this transition.
Forty-four Americans 抗美 援朝 have now taken the presidential oath.
The words have been spoken during rising tides of prosperity
and the still waters of peace. Yet, every so often the oath 抗美 援朝
is taken amidst gathering clouds and raging storms. At these moments,
America has carried on not simply because of the skill or vision of those in high office,
but because We the People 抗美 援朝 have remained faithful to the ideals of our forbearers,
and true to our founding documents."
Что вы можете сделать, если хотите использовать quanteda
, так это вычислить 4-граммы (я считать, что ваши слова состоят из четырех знаков и, следовательно, будут обрабатываться как четыре слова)
Шаг 1: разделите текст на токены слов:
data_tokens <- tokens(data, remove_punct = TRUE, remove_numbers = TRUE)
Шаг 2: вычислите 4-граммы и сделайте список их частот
fourgrams <- sort(table(unlist(as.character(tokens_ngrams(data_tokens, n = 4, concatenator = " ")))), decreasing = T)
Вы можете проверить первые десять:
fourgrams[1:10]
抗 美 援 朝 美 援 朝 have America has carried on Americans 抗 美 援
4 2 1 1
amidst gathering clouds and ancestors I thank President and cooperation he has and raging storms At
1 1 1 1
and the still waters and true to our
1 1
Если вы просто хотите узнать частоту вашего целевого соединения:
fourgrams["抗 美 援 朝"]
抗 美 援 朝
4
В качестве альтернативы, и это намного проще, особенно если вы действительно интересуетесь только одним соединением, вы можете использовать str_extract_all
из stringr
. Это немедленно предоставит вам количество частот:
library(stringr)
length(unlist(str_extract_all(data, "抗美 援朝")))
[1] 4