Я пытаюсь использовать бинарный файл google-Ngram LM, предоставленный здесь с berkeleylm . После выполнения инструкций по использованию после сборки пакета я запускаю следующую команду:
java -ea -mx10000m -server -cp ../src edu.berkeley.nlp.lm.io.ComputeLogProbabilityOfTextStream -g vocab_cs.gz eng.blm.gz <file to be scored>
Где я получил vocab_cs.gz
и eng.blm.gz
по предоставленной ссылке. Тем не менее, я получаю значение nan
даже для очень простых предложений, таких как "This is a sample sentence"
. Я попытался извлечь eng.blm
из eng.blm.gz
и запустил код с извлеченным двоичным файлом, все же я получаю тот же результат. Пожалуйста, помогите мне отладить это.