Fasttext не выполняет никакой предварительной обработки числовых токенов. Они обрабатываются как другие разделенные пробелами слова.
Если у вас уже нет особых проблем с фасттекстом и числами на входе, я бы не беспокоился о том, что фасттекст делает с числами. Просто используйте его как обычно.
Если у вас много чисел, и они вызывают проблемы - это возможно, поскольку у fasttext, скорее всего, нет никаких полезных векторов для большинства конкретных чисел - вы можете предварительно обработать ввод, чтобы заменить их на <NUMBER>
или еще один фиктивный жетон. Таким образом, эти предложения будут такими же, как и в текстовом формате:
- Я съел 1023 апельсина.
- Я съел 1024 апельсина.
Хотите ли вы относиться к ним одинаково или нет, зависит от вашего заявления.