Я хочу обучить модель NER с помощью AllenNLP, и, похоже, мне нужен либо набор данных CoNLL2003, либо необходимо изменить считыватель.У меня есть набор данных в формате CoNLL2011.Вот часть этого:
#begin document T990507.2
T990507.2 1 1 Veruntreute VVFIN (VROOT:--(SIMPX:--(LK:-(VXFIN:HD*)) veruntreuen - - - * - -
T990507.2 1 2 die ART (MF:-(NX=ORG:ON* die - - - * - (0
T990507.2 1 3 AWO NN *) AWO - - - (ORG) - 0)
T990507.2 1 4 Spendengeld NN (NX:OA*))) Spendengeld - - - * - -
T990507.2 1 5 ? $. *) ? - - - * - -
Для CoNLL2003 мне нужен такой формат, где (1) - слово, (2) - тег POS, (3) - синтаксический тег чанка и(4) это тег NER:
U.N. NNP I-NP I-ORG
official NN I-NP O
Ekeus NNP I-NP I-PER
heads VBZ I-VP O
for IN I-PP O
Baghdad NNP I-NP I-LOC
. . O O
Проблема в том, что я не знаю, как извлечь синтаксический тег фрагмента.Другие не проблема.
У меня также есть форматы данных chunks
, conll_2006
, conll_2010
, conll_u
, Penn_tree_bank
и некоторый формат XML, название которого я не знаюформата.Они все одинакового корпуса, но отформатированы по-разному.
Возможно ли извлечь нужную информацию из грамматического дерева в столбце 6?Я относительно новичок в НЛП и лингвистике, поэтому мне сложно судить.Я мог бы также переписать программу чтения наборов данных 2003 года и пропустить синтаксический тег чанка, но я боюсь, что это слишком сильно влияет на результат.Я имею в виду, что должна быть причина, по которой задача NER требовала этих тегов.
Любая помощь, подсказка или что-либо еще очень ценное.