Google N-грамм BerkeleyLM, дающий значения Nan - PullRequest
0 голосов
/ 15 января 2019

Я пытаюсь использовать бинарный файл google-Ngram LM, предоставленный здесь с berkeleylm . После выполнения инструкций по использованию после сборки пакета я запускаю следующую команду:

java -ea -mx10000m -server -cp ../src edu.berkeley.nlp.lm.io.ComputeLogProbabilityOfTextStream -g vocab_cs.gz eng.blm.gz <file to be scored>

Где я получил vocab_cs.gz и eng.blm.gz по предоставленной ссылке. Тем не менее, я получаю значение nan даже для очень простых предложений, таких как "This is a sample sentence". Я попытался извлечь eng.blm из eng.blm.gz и запустил код с извлеченным двоичным файлом, все же я получаю тот же результат. Пожалуйста, помогите мне отладить это.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...