Как ускорить время обработки длинных статей с помощью StanfordCoreNLP (v3.9.2) - PullRequest
0 голосов
/ 20 марта 2019

У меня есть статья с 8226 символами, я хочу извлечь NER. (проверьте оригинальную статью на Здесь )

Использование команды как указано ниже 8,0 сек в NERCombinerAnnotator

 java -cp "./*" edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner -ner.model edu/stanford/nlp/models/ner/english.conll.4class.distsim.crf.ser.gz -ner.nthreads 4 -file longArticleSample.txt -outputFormat json

enter image description here

Кроме того, я пробовал другую статью с 1973 символами таким же образом. Для получения NER требуется 4,2 с .

java -cp "./*" edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner -ner.model edu/stanford/nlp/models/ner/english.conll.4class.distsim.crf.ser.gz -ner.nthreads 4 -file mediumArticle.txt -outputFormat json

enter image description here

Этот результат намного менее эффективен, чем результат автора (оба используют токен + SS + PoS + L + NER)

[Мой результат]

  • Средняя длинаСтатья: 4,5 сек. для 356 токенов со скоростью 78,4 токена / сек .
  • LongАртикул: 8,4 сек. на 1683 токена при 200,3 токена / сек .

[Стэнфордский результат]

...