Низкий балл с валютой Извлечение сущностей в сущности в IBM Watson NLU - PullRequest
0 голосов
/ 04 сентября 2018

Я пытаюсь извлечь некоторые сущности и отношения из текстовых документов, используя NLU и WKS. Я получил хорошие результаты, но мне хотелось бы понять, почему NLU Watson не распознает некоторые объекты моей пользовательской модели в похожих документах, например:

Text 1 in Portuguese: "Dá à causa o valor de R$ 10.000,00" => DIDN´T WORK

Text 2 in Portuguese: "Dá à causa o valor de R$ 20.000,00" => WORKED!

Text 3 in Portuguese: "Dá à causa o valor de R$ 10.000,01" => WORKED!

Уотсон распознает мои сущности и отношения в Тексте 2 и Тексте 3, но не в Тексте 1. То же самое происходит с:

Text 4 in Portuguese: "Dá à causa o valor esperado de R$ 20.000,00" => DIDN´T WORK

Text 5 in Portuguese: "Dá à causa o valor de R$ 20.000,00" => WORKED!

Образец документа с тегом:

enter image description here

Dataset:

  • Учебный комплект: 250 документов (85%)
  • Тестовый набор: 35 документов (12%)
  • Слепой набор: 10 документов (3%)

  • Я уже использовал чужие сплиты.

  • Все документы имеют сущности и отношения, по одному документу, с отклонениями.

Я уже пометил больше документов этим сценарием, но он не улучшил результаты. Еще одним тестом было пометить любую валюту в документах.

Что я могу сделать, чтобы улучшить результаты?

...