Mallet TokenSequenceRemoveStopwords проблема с чтением файла - PullRequest
0 голосов
/ 24 августа 2018

Я пытаюсь использовать Маллет для моделирования тем. Итак, вот мой код:

{
    ArrayList<Pipe> pipeList = new ArrayList<Pipe>();
    // Lowercase everything
    pipeList.add(new CharSequenceLowercase());
    // Unicode letters, underscore, and hashtag
    Pattern pat = Pattern.compile("[\\p{L}_#]+");
    pipeList.add(new CharSequence2TokenSequence(pat));
    // Remove stop words
    pipeList.add( new TokenSequenceRemoveStopwords(new File("C:\\mallet\\stoplists\\en.txt"), "UTF-8", false, false, false) );
    // Convert the token sequence to a feature sequence.
    pipeList.add(new TokenSequence2FeatureSequence());
    return pipeList;
}

Если я запускаю программу, она говорит

Исключение в потоке "main" java.lang.IllegalArgumentException: Проблема чтение файла C: \ mallet \ stoplists \ en.txt

Может ли кто-нибудь помочь мне решить эту проблему?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...