Можно ли использовать readLines для обработки ngram для R? - PullRequest
0 голосов
/ 16 мая 2018

Я пытаюсь измерить частоту фраз, составленных от одного до восьми слов.Я читал об извлечении текста для фраз здесь и в других местах и ​​обнаружил, что наилучшим способом будет использование токенизации ngram.

Однако, когда я копирую и вставляю текст из файла .txt, он либо приходитс неопознанной ошибкой символа для нескольких строк.Можно ли использовать функцию readLines вместо X в коде ngram_Tokenizer?Например:

Bigram_Tokenizer<-function(X(readLines(file.choose())(Ngram_tokenizer(X(readLines(file.choose(),WekaControl(min=#,max=#) в примере, приведенном Томкауффманом на GitHubGist ( 1 )?

Когда я копирую распечатку readLines, появляется «неожиданный [в [» Нужно ли включать один и тот же текст в обе записи «X»?

Спасибо, Бен М.

...