Последовательность мульти-маркировки с помощью spaCy в Python - PullRequest
1 голос
/ 10 марта 2019

Мне интересно, можно ли пометить текст, в котором токены могут иметь несколько (перекрывающихся) меток в задаче NER?

Я хотел бы изучить марки автомобилей, однако мне нужно классифицировать их как частные или коммерческие автомобили.

Например:

text_0 = 'The new model of Mercedes is a great family car which also offers a space for home pets in the rear'

text_1 = 'It has been know for decades that Mercedes vehicle are very reliable for public transportation'

Мне нужно извлечь марку автомобиля (что легко и должно давать «Мерседес»), однако я хотел бы также знать, в каком контексте была упомянута марка автомобиля. Таким образом, система IE должна вывести:

text_0 -> (SYSTEM) -> {'car_make': 'Mercedes', 'vehicle_type': 'private'}

text_1 -> (SYSTEM) -> {'car_make': 'Mercedes', 'vehicle_type': 'commercial'}

Потенциальное решение

Я могу комментировать большой корпус для обучения статистической модели. В общем, я могу обучить две отдельные модели NER, одну для определения марок автомобилей, а другую для обозначения того, является ли этот токен частным / коммерческим.

Проблема в том, как объединить обе модели NER, чтобы их выходные данные не перезаписывали теги сущностей. Есть ли хороший способ сделать это в spaCy?

В противном случае, пожалуйста, предложите, как добавить еще один атрибут (частный / коммерческий) к задаче NER изучения автомобилей.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...