Как обучить мою собственную модель NER с помощью стэнфордских библиотек? - PullRequest
0 голосов
/ 28 мая 2018

Я страдаю от сотен писем с информацией о путешествиях.Одной из моих задач является сохранение части информации из электронных писем в нашу системную базу данных.
Я планирую сделать это автоматически, и именно поэтому я начал изучать материалы StanfordNER и IE.

Здесьмы идем,
Это мой пример электронной почты.Это не предложение, а содержит даже некоторый код.

образец электронного письма

NO. PETER 17 HIGHSCHOOL/2TH/OPEN
LONDON,ENGLAND STY 12-13TH JUNE

NO. JAKE 12 HIGHSCHOOL/OPEN
LIVERPOOL,ENGLAND 12,13 JUNE

Мне нужно только имя, местоположение и даты из них, поэтому я сделал свой tsv

dummy-vess-corpus.tsv

NO  O
.   O
PETER   PERSON
JAKE    PERSON
17  O
12  O
HIGHSCHOOL  O
2TH O
OPEN    O
LONDON  CITY
LIVERPOOL   CITY
ENGLAND COUNTRY
12-13TH DATE
12  DATE
13  DATE
JUNE    MONTH

prop.txt

trainFile = train/dummy-vess-corpus.tsv
serializeTo = dummy-ner-model-vess.ser.gz
map = word=0,answer=1

useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
maxNGramLeng=6
usePrev=true
useNext=true
useSequences=true
usePrevSequences=true
maxLeft=1
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC
useDisjunctive=true

модель сборки cmd

java -cp "stanford-ner.jar:lib/*" -mx4g edu.stanford.nlp.ie.crf.CRFClassifier -prop train/prop.txt

output

[('NO', 'O'), ('.', 'O'), ('PETER', 'O'), ('17', 'O'), 
('HIGHSCHOOL2THOPEN', 'O'), ('LONDON', 'CITY'), (',', 'CITY'), 
('ENGLAND','COUNTRY'), ('STY', 'DATE'), ('12-13TH', 'DATE'), ('JUNE', 'MONTH'), 
('NO', 'O'), ('.', 'O'), ('JAKE', 'O'), ('12', 'O'), ('HIGHSCHOOLOPEN', 'O'), 
('LIVERPOOL', 'O'), (',', 'O'), ('ENGLAND', 'COUNTRY'), ('12,13', 'DATE'), ('JUNE', 'MONTH')]

Не работает вообще.Я искал Goole, чтобы выяснить способ обучения, но я могу найти только простые примеры ...

1 Ответ

0 голосов
/ 29 мая 2018

Для каждой строки в файле dummy-vess-corpus.tsv необходимо выбрать один из следующих аннотаторов.

location
time
organization
percent
money
person
date

Например, файл dummy-vess-corpus.tsv должен выглядеть следующим образом;

NO  O
.   O
PETER   person
JAKE    person
LONDON  location

Если вы хотите добавить новый аннотатор, вы можете посмотреть по этой ссылке

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...