Я пишу собственную модель spaCy для определения чисел, которые появляются в определенном контексте.Например, скажем, у меня есть отчеты, в которых описываются детали, поступающие и выходящие с завода, и я хочу определять входящие и исходящие количества.В следующих предложениях
- Мы получили 3000 шайб.
- Они отправили нам 250 болтов.
- 180 коробок пришли.
модель должна обнаруживать объекты RECEIVED_QUANTITY «3000», «250» и «180».В следующих предложениях
- Мы отправили 9000 единиц.
- Наша фабрика выпустила 550 коробок.
- Мы отправили 220 упаковок.
модель должна обнаруживать объекты SENT_QUANTITY "9000", "550" и "220".
Это довольно стандартная задача NER, в которой я пытаюсь идентифицировать определенные виды токенов, которые появляются в определенныхконтексты.Сложность состоит в том, что сами токены являются цифрами. Я не хочу тратить емкость модели, изучая конкретные строки цифр, такие как 3000, 180 и 500. Лучше всего, если с точки зрения модели они просто появляются как токены NUMBER.
Если я буду следовать стандартной процедуре spaCy, как описано в Обучение дополнительному типу сущности , будет ли spaCy делать то, что я хочу, или он попытается выучить отдельные цифры?Если дело обстоит именно так, какую предварительную обработку мне следует выполнить?(Просто замените _is_digit_ токены на слово типа "NUMBER", или есть что-то менее хакерское?)