TokenSequenceParser в Stanford CoreNLP игнорирует хвост шаблонов, упомянутых в правилах - PullRequest
0 голосов
/ 12 мая 2019

Хвост шаблонов игнорируется в TokenSequenceParser

Следующая функция игнорирует хвост шаблонов, определенный в правилах для tokensregex

private String getStringFromTokens(Token head, Token tail, boolean includeSpecial) {
StringBuilder sb = new StringBuilder();
for( Token p = head ; p != tail ; p = p.next ) {
if (includeSpecial) {
appendSpecialTokens( sb, p.specialToken );
}
sb.append( p.image );
}
return sb.toString();
}

([{lemma:/([a-zA-Z]{2,}_)?[a-zA-Z]{2,}[0-9]{2,}/}])
преобразуется в
([{lemma:/([a-zA-Z]{2,}_)?[a-zA-Z]{2,}[0-9]{2,}/}]
во время чтения и не предоставлять намеченные совпадения

...