Необходима ли предварительная обработка для поиска числовых именованных объектов? - PullRequest
0 голосов
/ 08 февраля 2019

Я пишу собственную модель spaCy для определения чисел, которые появляются в определенном контексте.Например, скажем, у меня есть отчеты, в которых описываются детали, поступающие и выходящие с завода, и я хочу определять входящие и исходящие количества.В следующих предложениях

  • Мы получили 3000 шайб.
  • Они отправили нам 250 болтов.
  • 180 коробок пришли.

модель должна обнаруживать объекты RECEIVED_QUANTITY «3000», «250» и «180».В следующих предложениях

  • Мы отправили 9000 единиц.
  • Наша фабрика выпустила 550 коробок.
  • Мы отправили 220 упаковок.

модель должна обнаруживать объекты SENT_QUANTITY "9000", "550" и "220".

Это довольно стандартная задача NER, в которой я пытаюсь идентифицировать определенные виды токенов, которые появляются в определенныхконтексты.Сложность состоит в том, что сами токены являются цифрами. Я не хочу тратить емкость модели, изучая конкретные строки цифр, такие как 3000, 180 и 500. Лучше всего, если с точки зрения модели они просто появляются как токены NUMBER.

Если я буду следовать стандартной процедуре spaCy, как описано в Обучение дополнительному типу сущности , будет ли spaCy делать то, что я хочу, или он попытается выучить отдельные цифры?Если дело обстоит именно так, какую предварительную обработку мне следует выполнить?(Просто замените _is_digit_ токены на слово типа "NUMBER", или есть что-то менее хакерское?)

...