У меня есть текст, который содержит информацию о населении, а также о стране. Я хотел бы получить NER для населения и страны.
Мой текст выглядит следующим образом:
text_sent = антигены при артериальных окклюзионных заболеваниях в Японии. Использование стандартного теста на лимфоцитотоксичность, возможного японского специфического антигена, bjw 22,2 было выявлено у 17 из 48 пациентов с облитерирующим тромбоангиитом (35,4%), у 5 из 15 пациенты с таким артериитом (33,3%) и 11 из 113 пациентов с нормальным контролем (9,7%).
Я пытался использовать это
из nltk import word_tokenize, pos_tag, ne_chunk
ne_chunk (pos_tag (word_tokenize (text_sent)))
я получил тег, но не получил слово с тегом GPE .
(S
Антигены / NNS
в / IN
артериальная / JJ
окклюзионные / JJ
Заболевания / NNS
в / IN
japan.using / VBG
а / DT
NIH / JJ
стандарт / JJ
lymphocytotoxicity / Н.Н.
Испытание / Н.Н.
, /,
а / DT
возможно / JJ
японский / JJ
специфические / JJ
антиген / Н.Н.
, /,
bjw / JJ
22,2 / CD
был / ВБД
идентифицированы / VBN
в / IN
17 / CD
наружу внутрь
из в
48 / CD
пациентов / NNS
в
тромбангиит / Н.Н.
облитерирующий / NNS
(/ (
35,4 / CD
в / IN
цент / Н.Н.
) /)
, /,
в / IN
5 / CD
наружу внутрь
из в
15 / CD
пациентов / NNS
в
Такаясу / Н.Н.
«S / POS
артериит / Н.Н.
(/ (
33,3 / CD
в / IN
цент / Н.Н.
) /)
и / CC
в / IN
11 / CD
наружу внутрь
из в
113 / CD
нормальный / JJ
средства управления / NNS
(/ (
9,7 / CD
в / IN
цент / Н.Н.
) /)
./.)