BERT не является контекстно-свободным преобразователем, что означает, что вы не хотите использовать его для одного слова, как если бы вы использовали word2vec. Это действительно важно - вы хотите контекстуализировать свой вклад. Я имею в виду, что вы можете ввести предложение из одного слова, но тогда почему бы просто не использовать word2vec.
Вот что говорит README:
Предварительно обученные представления также могут быть не зависящими от контекста или
контекстуальные и контекстные представления могут быть далее
однонаправленный или двунаправленный. Модели без контекста, такие как word2vec
или GloVe генерирует одно представление «встраивания слов» для каждого
слово в словаре, поэтому банк будет иметь такое же представление в
банковский депозит и речной берег. Контекстные модели вместо этого генерируют
представление каждого слова, основанного на других словах в
предложение.
Надеюсь, что имеет смысл: -)