Вот выдержка из (предположительно) забавного обзора ресторана:
Я бы хотел лично пожать руку мистеру Тофу . В то время как я не могу с медицинской точки зрения доказать это, я на 100% уверен, что их скороДубу содержит неопределенные свойства исцеления . Некоторые, как-то, я всегда чувствую себя лучше после еды здесь. Получил холодно ? Отвинтите Nyquil и получите пряный кимчи soondubu.
Я хотел бы извлечь важные объекты и связать их с объектами Википедии. Я обучил spaCy на небольшом примере Википедии / WikiData и запустил ссылку на сущность в обзоре:
[('Tofu', 'PERSON', 'Q177378'),
('Nyquil', 'WORK_OF_ART', 'NIL')]
Я бы хотел, чтобы другие сущности также были извлечены и связаны, например:
kimchi -> Kimchi
cold -> Common cold
healing -> medicine
medically -> medicine
Похоже, что spaCy может связывать только именованные объекты. Я попытался явно перечислить другие сущности как именованные (что, очевидно, плохо масштабируется):
ruler = EntityRuler(nlp)
patterns = [{"label": "ORG", "pattern": "kimchi"}, {"label": "ORG", "pattern": "cold"}]
ruler.add_patterns(patterns)
nlp.add_pipe(ruler)
Однако spaCy, похоже, совсем не связывает новые сущности:
[ ('Tofu', 'PERSON', 'Q177378'),
('cold', 'ORG', ''),
('Nyquil', 'WORK_OF_ART', 'NIL'),
('kimchi', 'ORG', '')]
- Как я могу заставить Spacy распознавать и другие сущности?
- Должно ли это быть сделано до связывания обучающей модели или с уже обученной моделью?
- Является ли spaCy подходящим инструментом для моя задача вообще?