У меня есть статья с 8226 символами, я хочу извлечь NER. (проверьте оригинальную статью на Здесь )
Использование команды как указано ниже 8,0 сек в NERCombinerAnnotator
java -cp "./*" edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner -ner.model edu/stanford/nlp/models/ner/english.conll.4class.distsim.crf.ser.gz -ner.nthreads 4 -file longArticleSample.txt -outputFormat json
Кроме того, я пробовал другую статью с 1973 символами таким же образом. Для получения NER требуется 4,2 с .
java -cp "./*" edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner -ner.model edu/stanford/nlp/models/ner/english.conll.4class.distsim.crf.ser.gz -ner.nthreads 4 -file mediumArticle.txt -outputFormat json
Этот результат намного менее эффективен, чем результат автора (оба используют токен + SS + PoS + L + NER)
[Мой результат]
- Средняя длинаСтатья: 4,5 сек. для 356 токенов со скоростью 78,4 токена / сек .
- LongАртикул: 8,4 сек. на 1683 токена при 200,3 токена / сек .
[Стэнфордский результат]