Во-первых, вы, вероятно, путаете модель с наличием яблок в единственном числе.
BERT - это, прежде всего, языковая модель. Он интерпретирует предложения, используя логику предикатов, он моделирует, как используется язык. Использование языка - единственный обучающий сигнал, который у него есть. «У меня 2 яблока». и «У меня 3 яблока». - оба довольно естественные предложения, единственное отличие - число.
С другой стороны, «У меня 2,1 яблока». - очень необычное предложение. Люди не выражают количество яблок, используя числа с плавающей точкой. Это не то, как язык обычно используется, что отличает его от первых двух предложений.