Как указать сегментацию текста в R? - PullRequest
1 голос
/ 10 июля 2019

Я пытаюсь разделить свой текст на два значимых слова.Он разделяет слова, но также разделяет два символьных слова, таких как «есть», «это» и т. Д.?

    wl <- read.table("http://www-personal.umich.edu/~jlawler/wordlist")$V1

    > check.word <- function(x, wl) {
    +   x <- tolower(x)
    +   nc <- nchar(x)
    +   parts <- sapply(1:(nc-1), function(y) c(substr(x, 1, y), 
    substr(x, y+1, nc)))
    +   parts[,parts[1,] %in% wl & parts[2,] %in% wl] 
    + }
    > check.word("isgood",wl)
    [1] "is"   "good"
    > check.word("is",wl)
    [1] "i" "s"

1 Ответ

0 голосов
/ 10 июля 2019

сначала удалите слова длиной менее 2 или 3 символов из вашей базы данных слов

wl = wl[nchar(as.character(wl)) >= 3]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...