Если RRB
не отделен пробелом со следующим словом, оно будет распознано как часть слова.
In [34]: nlp("Indonesia (CNN)AirAsia ")
Out[34]: Indonesia (CNN)AirAsia
In [35]: d=nlp("Indonesia (CNN)AirAsia ")
In [36]: [(t.text, t.lemma_, t.pos_, t.tag_) for t in d]
Out[36]:
[('Indonesia', 'Indonesia', 'PROPN', 'NNP'),
('(', '(', 'PUNCT', '-LRB-'),
('CNN)AirAsia', 'CNN)AirAsia', 'PROPN', 'NNP')]
In [39]: d=nlp("(CNN)Police")
In [40]: [(t.text, t.lemma_, t.pos_, t.tag_) for t in d]
Out[40]: [('(', '(', 'PUNCT', '-LRB-'), ('CNN)Police', 'cnn)police', 'VERB', 'VB')]
Ожидаемый результат
In [37]: d=nlp("(CNN) Police")
In [38]: [(t.text, t.lemma_, t.pos_, t.tag_) for t in d]
Out[38]:
[('(', '(', 'PUNCT', '-LRB-'),
('CNN', 'CNN', 'PROPN', 'NNP'),
(')', ')', 'PUNCT', '-RRB-'),
('Police', 'Police', 'NOUN', 'NNS')]
Это ошибка?
Есть предложения по решению проблемы?