Пользовательский NER для идентификации продуктов - PullRequest
1 голос
/ 14 января 2020

Я пытаюсь создать пользовательский экстрактор сущностей с именами продуктов и номерами моделей.

Мой вариант использования содержит предложения типа: «Microsoft использовала продукт AB C -300 и также интегрировала его с ASQ». Продукт, упомянутый в предложении выше: AB C -300 и ASQ

Я уже пробовал использовать Stanford и Spacy NER, точность обоих значений ниже желаемой.

Есть ли какие-либо наборы данных которые содержат названия продуктов в параграфах или предложениях, которые я могу использовать для обучения пользовательской модели NER? Предложения для обучения могут быть простыми или сложными. Любые данные будут полезны.

Будем благодарны за любые подсказки о том, как подойти к этой проблеме с меньшим количеством обучающих данных.

1 Ответ

0 голосов
/ 16 января 2020

Одним из возможных решений является использование TokensRegexNERAnnotator (https://stanfordnlp.github.io/CoreNLP/regexner.html)

Это предполагает, что вы можете 'regex' названий продуктов

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...