Я работаю над распознаванием имен (NER) для распознавания некоторых меток для текста.
Я хочу использовать nltk
, и проблема в том, что у меня есть данные в этом формате (список списка кортежей), который в основном выглядит следующим образом (4 примера):
df[0:5]:
[[('Appendix', 'None'), ('B', 'None')],
[('On', 'None'),
('the', 'None'),
('Table', 'None'),
('of', 'None'),
('Oppositions', 'None'),
('in', 'None'),
('Chapter', 'None'),
('15', 'NUM')],
[('by', 'None'),
('Yaakov', 'None'),
('Zik', 'None'),
('Table', 'None'),
('i', 'None')],
[('Initial', 'None'),
('positions', 'None'),
('of', 'None'),
('Mars', 'None'),
('in', 'None'),
('Chapter 15 ', 'None'),
('computed', 'None'),
('with', 'None'),
('Guide 9 ', 'None'),
('using', 'None'),
('JPL', 'GEOM'),
('DE430', 'GEOM')],
[('General', 'None'), ('notes', 'None')]]
Я хочу добавить в каждый кортеж pos_tag без изменения структуры данных.
Желаемый результат должен быть таким
[[('Appendix','CS', 'None'), ('B', 'NC', 'None')],
[('On', 'NC', 'None'),
('the', 'NC', 'None'),
('Table', 'NC', 'None'),
('of', 'Fp' 'None'),
('Oppositions','Fp', 'None'),
('in', 'Fp' 'None'),
('Chapter', 'Fp', 'None'),
('15', 'Fp', 'NUM')],
[('by', 'None'),
('Yaakov', 'Fp', 'None'),
('Zik', 'None'),
('Table', 'Fp', 'None'),
('i', 'Fp', 'None')],
[('Initial', 'Fp', 'None'),
('positions', 'Fp', 'None'),
('of', 'Fp', 'None'),
('Mars', 'Fp', 'None'),
('in', 'Fp', 'None'),
('Chapter 15 ', 'Z', 'None'),
('computed', 'Fp', 'None'),
('with', 'Fp', 'None'),
('Guide 9 ', 'Fp', 'None'),
('using', 'None'),
('JPL', 'Fp', 'GEOM'),
('DE430', 'Fp', 'GEOM')],
[('General', 'Z', 'None'), ('notes', ''Fp' 'None')]]
Как дано, я хочу добавить pos-тег в каждый кортеж с помощью nltk.pos_tag (отправлено)
Вообще говоря, как я могу добавить компонент в список списка кортежей таким образом, чтобы результат снова был тем же списком списка кортежей?