Question

Я пытаюсь создать пользовательский экстрактор сущностей с именами продуктов и номерами моделей.

Мой вариант использования содержит предложения типа: «Microsoft использовала продукт AB C -300 и также интегрировала его с ASQ». Продукт, упомянутый в предложении выше: AB C -300 и ASQ

Я уже пробовал использовать Stanford и Spacy NER, точность обоих значений ниже желаемой.

Есть ли какие-либо наборы данных которые содержат названия продуктов в параграфах или предложениях, которые я могу использовать для обучения пользовательской модели NER? Предложения для обучения могут быть простыми или сложными. Любые данные будут полезны.

Будем благодарны за любые подсказки о том, как подойти к этой проблеме с меньшим количеством обучающих данных.

Beppe C · Answer 1 · 16 января 2020

Одним из возможных решений является использование TokensRegexNERAnnotator (https://stanfordnlp.github.io/CoreNLP/regexner.html)

Это предполагает, что вы можете 'regex' названий продуктов

Пользовательский NER для идентификации продуктов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пользовательский NER для идентификации продуктов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов