добавление компонента кортежа в виде pos-тегов в список списков кортежей с помощью nltk - PullRequest
0 голосов
/ 11 апреля 2019

Я работаю над распознаванием имен (NER) для распознавания некоторых меток для текста.

Я хочу использовать nltk, и проблема в том, что у меня есть данные в этом формате (список списка кортежей), который в основном выглядит следующим образом (4 примера):

df[0:5]:
[[('Appendix', 'None'), ('B', 'None')],
 [('On', 'None'),
  ('the', 'None'),
  ('Table', 'None'),
  ('of', 'None'),
  ('Oppositions', 'None'),
  ('in', 'None'),
  ('Chapter', 'None'),
  ('15', 'NUM')],
 [('by', 'None'),
  ('Yaakov', 'None'),
  ('Zik', 'None'),
  ('Table', 'None'),
  ('i', 'None')],
 [('Initial', 'None'),
  ('positions', 'None'),
  ('of', 'None'),
  ('Mars', 'None'),
  ('in', 'None'),
  ('Chapter 15 ', 'None'),
  ('computed', 'None'),
  ('with', 'None'),
  ('Guide 9 ', 'None'),
  ('using', 'None'),
  ('JPL', 'GEOM'),
  ('DE430', 'GEOM')],
 [('General', 'None'), ('notes', 'None')]] 

Я хочу добавить в каждый кортеж pos_tag без изменения структуры данных.

Желаемый результат должен быть таким

[[('Appendix','CS', 'None'), ('B',  'NC', 'None')],
 [('On',  'NC',  'None'),
  ('the',  'NC',  'None'),
  ('Table',  'NC',  'None'),
  ('of', 'Fp' 'None'),
  ('Oppositions','Fp',  'None'),
  ('in', 'Fp' 'None'),
  ('Chapter', 'Fp', 'None'),
  ('15', 'Fp', 'NUM')],
 [('by', 'None'),
  ('Yaakov', 'Fp', 'None'),
  ('Zik', 'None'),
  ('Table', 'Fp', 'None'),
  ('i', 'Fp', 'None')],
 [('Initial', 'Fp', 'None'),
  ('positions', 'Fp', 'None'),
  ('of', 'Fp', 'None'),
  ('Mars', 'Fp', 'None'),
  ('in', 'Fp', 'None'),
  ('Chapter 15 ', 'Z', 'None'),
  ('computed', 'Fp', 'None'),
  ('with', 'Fp', 'None'),
  ('Guide 9 ', 'Fp', 'None'),
  ('using', 'None'),
  ('JPL', 'Fp', 'GEOM'),
  ('DE430', 'Fp', 'GEOM')],
 [('General', 'Z', 'None'), ('notes', ''Fp' 'None')]] 

Как дано, я хочу добавить pos-тег в каждый кортеж с помощью nltk.pos_tag (отправлено)

Вообще говоря, как я могу добавить компонент в список списка кортежей таким образом, чтобы результат снова был тем же списком списка кортежей?

1 Ответ

1 голос
/ 12 апреля 2019

Ваш вопрос немного размыт, но вот быстрое решение, основанное на моем понимании. Предполагая, что вы хотите сохранить порядок в целости и хотите вставить элемент в позицию кортежа:

to_add = '*' # Replace this value with the actual data you want to insert such as pos_tag
position_to_add = 1 # Replace this value with the actual position to insert into

result = []
for lst in df:
    ret_li = []
    for tpl in lst:
        # new_tpl = [*tpl]
        # new_tpl.append('None')
        new_tpl = tuple([*tpl[0:position_to_add]] + [to_add] + [*tpl[position_to_add:]])
        ret_li.append(new_tpl)

    result.append(ret_li)
...