Stanford NER Tagger чувствителен к регистру - PullRequest
0 голосов
/ 25 мая 2018

Недавно я начал изучать stanford ner tagger через nltk.мы пытаемся создать нашу собственную модель для NER.Я заметил, что Stanford ner ведет себя по-разному для разных случаев

Я использую Python 2.7, используя stanford-ner-2018-02-27.zip.Используемой моделью является english.all.3class.distsim.crf.ser.gz.

из nltk.tag.stanfordenglish.all.3class.distsim.crf.ser.gz ',' /stanford-ner.jar ', encoding =' utf-8 ')

tokenized_text = word_tokenize (text) nertag_text = st.tag (tokenized_text)

пример -

text = 'Во Франции во время недавнего интервью Wall Street Journal Кристина Лагард обсуждала краткосрочные стимулы.'

тегрезультат

[(u'While ', u'O'), (u'in ', u'O'), (u'France ', u'LOCATION'), (u ',',u'O '), (u'Christine', u'PERSON '), (u'Lagarde', u'PERSON '), (u'dicussed', u'O '), (u'hort-term',u'O '), (u'timulus', u'O '), (u'ehaps', u'O '), (u'in', u'O '), (u'a', u 'О '), (ты негодный, ты), (ты интервью, ты), (ты, ты), (ты, я)), (u'Wall ', u'ORGANIZATION'), (u'Street ', u'ORGANIZATION'), (u'Journal ', u'ORGANIZATION'), (u '.', u'O ')]

Делая текст в нижнем регистре

text = "во Франции, Кристина Лагард обсуждала краткосрочные меры стимулирования в недавнем интервью журналу Уолл-стрит"

результат тега

[(u'while ', u'O'), (u'in ', u'O'), (u'france ', u'O'), (u ',', u'O '),(u'christine ', u'PERSON'), (u'lagarde ', u'PERSON'), (u'dicussed ', u'O'), (u'hort-term ', u'O'),(u'timulus ', u'O'), (u'ehaps ', u'O'), (u'in ', u'O'), (u'a ', u'O'), (u'Recent', u'O '), (u'interview, u'O'), (u'with ', u'O'), (u'he ', u'O'), (u'wall', u'O'), (u'street ', u'O'), (u'journal ', u'O')]

Существует разница в значениях тегов.Есть ли какая-нибудь модель Стэнфорда, которая игнорирует регистр.

...