Как преобразовать CoNLL2011 в CoNLL2003 - PullRequest
0 голосов
/ 20 июня 2019

Я хочу обучить модель NER с помощью AllenNLP, и, похоже, мне нужен либо набор данных CoNLL2003, либо необходимо изменить считыватель.У меня есть набор данных в формате CoNLL2011.Вот часть этого:

#begin document T990507.2
T990507.2   1   1   Veruntreute VVFIN   (VROOT:--(SIMPX:--(LK:-(VXFIN:HD*)) veruntreuen -   -   -   *   -   -
T990507.2   1   2   die ART (MF:-(NX=ORG:ON*    die -   -   -   *   -   (0
T990507.2   1   3   AWO NN  *)  AWO -   -   -   (ORG)   -   0)
T990507.2   1   4   Spendengeld NN  (NX:OA*)))  Spendengeld -   -   -   *   -   -
T990507.2   1   5   ?   $.  *)  ?   -   -   -   *   -   -

Для CoNLL2003 мне нужен такой формат, где (1) - слово, (2) - тег POS, (3) - синтаксический тег чанка и(4) это тег NER:

   U.N.         NNP  I-NP  I-ORG 
   official     NN   I-NP  O 
   Ekeus        NNP  I-NP  I-PER 
   heads        VBZ  I-VP  O 
   for          IN   I-PP  O 
   Baghdad      NNP  I-NP  I-LOC 
   .            .    O     O 

Проблема в том, что я не знаю, как извлечь синтаксический тег фрагмента.Другие не проблема.

У меня также есть форматы данных chunks, conll_2006, conll_2010, conll_u, Penn_tree_bank и некоторый формат XML, название которого я не знаюформата.Они все одинакового корпуса, но отформатированы по-разному.

Возможно ли извлечь нужную информацию из грамматического дерева в столбце 6?Я относительно новичок в НЛП и лингвистике, поэтому мне сложно судить.Я мог бы также переписать программу чтения наборов данных 2003 года и пропустить синтаксический тег чанка, но я боюсь, что это слишком сильно влияет на результат.Я имею в виду, что должна быть причина, по которой задача NER требовала этих тегов.

Любая помощь, подсказка или что-либо еще очень ценное.

...