Поддерживает ли spaCy пользовательские типы для распознавания именованных объектов? - PullRequest
0 голосов
/ 30 марта 2020

В документации по функции * Распознавание именованных объектов 'spaCy (https://spacy.io/usage/linguistic-features#named -ity ) в документации говорится, что spaCy может распознавать «различные типы» именованных объектов, например as 'PERSON', 'LO C', 'PRODUCT' (https://spacy.io/api/annotation#named -ities ).

Мой вопрос: могу ли я также обучать данные с помощью пользовательских объектов? Например, я хотел бы обучить данные счета-фактуры распознавать, например, IBAN / BI C или номер счета-фактуры. , Это также возможно или эта функция ограничена только фиксированным списком объектов?

1 Ответ

1 голос
/ 31 марта 2020

Он поддерживает пользовательские объекты, см. этот раздел под названием «Обучение дополнительному типу объекта».

Например, чтобы добавить метку с именем MY_ANIMAL, вы можете использовать данные обучения вот так:

TRAIN_DATA = [
    (
        "Horses are too tall and they pretend to care about your feelings",
        {"entities": [(0, 6, MY_ANIMAL)]},
    ),
    ("Do they bite?", {"entities": []}),
    (
        "horses are too tall and they pretend to care about your feelings",
        {"entities": [(0, 6, MY_ANIMAL)]},
    ),
]

И добавьте это либо в существующую модель NER в качестве дополнительного обучения, либо во вновь созданную трубу NER.

Однако предостережение: модель ML оптимизирована для распознавания именованные сущности, которые обычно называются существительными, такими как «Джон», «Лондон» или «The Times». Вы также можете попробовать обучить его более общим c вещам, таким как числа, но это может не сработать.

...