Я пытаюсь измерить частоту фраз, составленных от одного до восьми слов.Я читал об извлечении текста для фраз здесь и в других местах и обнаружил, что наилучшим способом будет использование токенизации ngram.
Однако, когда я копирую и вставляю текст из файла .txt, он либо приходитс неопознанной ошибкой символа для нескольких строк.Можно ли использовать функцию readLines
вместо X в коде ngram_Tokenizer?Например:
Bigram_Tokenizer<-function(X(readLines(file.choose())(Ngram_tokenizer(X(readLines(file.choose(),WekaControl(min=#,max=#)
в примере, приведенном Томкауффманом на GitHubGist ( 1 )?
Когда я копирую распечатку readLines, появляется «неожиданный [в [» Нужно ли включать один и тот же текст в обе записи «X»?
Спасибо, Бен М.