При использовании CoreNLPParser
из NLTK
с CoreNLP Server , полученные токены содержат как ключ 'origintalText'
, так и ключ 'word'
.
В чем разница между двумя?Есть ли какая-либо документация о них?
Я только нашел эту проблему , в которой упоминался ключ origintalText
, но он не отвечает на мои вопросы.
from nltk.parse.corenlp import CoreNLPParser
corenlp_parser = CoreNLPParser('http://localhost:9000', encoding='utf8')
text = u'我家没有电脑。'
result = corenlp_parser.api_call(text, {'annotators': 'tokenize,ssplit'})
print(result)
печатает
{'предложения': [{'index': 0, 'токены': [{'index': 1, 'word': '我 家', 'originalText ':' 我 家 ',' characterOffsetBegin ': 0,' characterOffsetEnd ': 2}, {' index ': 2,' word ':' 没有 ',' originalText ':' 没有 ',' characterOffsetBegin ': 2,'characterOffsetEnd ': 4}, {' index ': 3,' word ':' 电脑 ',' originalText ':' 电脑 ',' characterOffsetBegin ': 4,' characterOffsetEnd ': 6}, {' index ': 4,'word ':'。 ',' originalText ':'。 ',' characterOffsetBegin ': 6,' characterOffsetEnd ': 7}]}]}
Обновление:
КажетсяToken
реализует HasWord
и HasOriginalText