Мне интересно, можно ли пометить текст, в котором токены могут иметь несколько (перекрывающихся) меток в задаче NER?
Я хотел бы изучить марки автомобилей, однако мне нужно классифицировать их как частные или коммерческие автомобили.
Например:
text_0 = 'The new model of Mercedes is a great family car which also offers a space for home pets in the rear'
text_1 = 'It has been know for decades that Mercedes vehicle are very reliable for public transportation'
Мне нужно извлечь марку автомобиля (что легко и должно давать «Мерседес»), однако я хотел бы также знать, в каком контексте была упомянута марка автомобиля. Таким образом, система IE должна вывести:
text_0 -> (SYSTEM) -> {'car_make': 'Mercedes', 'vehicle_type': 'private'}
text_1 -> (SYSTEM) -> {'car_make': 'Mercedes', 'vehicle_type': 'commercial'}
Потенциальное решение
Я могу комментировать большой корпус для обучения статистической модели. В общем, я могу обучить две отдельные модели NER, одну для определения марок автомобилей, а другую для обозначения того, является ли этот токен частным / коммерческим.
Проблема в том, как объединить обе модели NER, чтобы их выходные данные не перезаписывали теги сущностей. Есть ли хороший способ сделать это в spaCy?
В противном случае, пожалуйста, предложите, как добавить еще один атрибут (частный / коммерческий) к задаче NER изучения автомобилей.