Question

Недавно я начал изучать stanford ner tagger через nltk.мы пытаемся создать нашу собственную модель для NER.Я заметил, что Stanford ner ведет себя по-разному для разных случаев

Я использую Python 2.7, используя stanford-ner-2018-02-27.zip.Используемой моделью является english.all.3class.distsim.crf.ser.gz.

из nltk.tag.stanfordenglish.all.3class.distsim.crf.ser.gz ',' /stanford-ner.jar ', encoding =' utf-8 ')

tokenized_text = word_tokenize (text) nertag_text = st.tag (tokenized_text)

пример -

text = 'Во Франции во время недавнего интервью Wall Street Journal Кристина Лагард обсуждала краткосрочные стимулы.'

тегрезультат

[(u'While ', u'O'), (u'in ', u'O'), (u'France ', u'LOCATION'), (u ',',u'O '), (u'Christine', u'PERSON '), (u'Lagarde', u'PERSON '), (u'dicussed', u'O '), (u'hort-term',u'O '), (u'timulus', u'O '), (u'ehaps', u'O '), (u'in', u'O '), (u'a', u 'О '), (ты негодный, ты), (ты интервью, ты), (ты, ты), (ты, я)), (u'Wall ', u'ORGANIZATION'), (u'Street ', u'ORGANIZATION'), (u'Journal ', u'ORGANIZATION'), (u '.', u'O ')]

Делая текст в нижнем регистре

text = "во Франции, Кристина Лагард обсуждала краткосрочные меры стимулирования в недавнем интервью журналу Уолл-стрит"

результат тега

[(u'while ', u'O'), (u'in ', u'O'), (u'france ', u'O'), (u ',', u'O '),(u'christine ', u'PERSON'), (u'lagarde ', u'PERSON'), (u'dicussed ', u'O'), (u'hort-term ', u'O'),(u'timulus ', u'O'), (u'ehaps ', u'O'), (u'in ', u'O'), (u'a ', u'O'), (u'Recent', u'O '), (u'interview, u'O'), (u'with ', u'O'), (u'he ', u'O'), (u'wall', u'O'), (u'street ', u'O'), (u'journal ', u'O')]

Существует разница в значениях тегов.Есть ли какая-нибудь модель Стэнфорда, которая игнорирует регистр.

Stanford NER Tagger чувствителен к регистру

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Stanford NER Tagger чувствителен к регистру

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы