BERT предназначен для работы со словами в контексте.Без контекста BERT-подобная модель эквивалентна простому поиску word2vec (есть причудливый токенизация, но я не знаю, как она работает с ивритом - возможно, не очень эффективно).Поэтому, если вы действительно хотите использовать функции распределения в своем классификаторе, вы можете вместо этого взять предварительно обученную модель word2vec - она проще, чем BERT, и не менее мощна.
Но я не уверен, что она все равно будет работать.Word2vec и его эквиваленты (например, BERT без контекста) мало знают о внутренней структуре слова - только о контекстах, в которых оно используется. Однако в вашей задаче структура слова важнее возможных контекстов.Например, слова בלוטת (железа) или דם (кровь) или סוכר (сахар) часто встречаются в том же контексте, что и инсулин, но בלוטת и דם - иврит, в то время как סוכר - английский (хорошо, первоначально по-арабски, но мы, вероятно, не заинтересованыв слишком древнем происхождении).Вы просто не можете предсказать это только из контекста.
Так почему бы не начать с некоторой простой модели (например, логистической регрессии или даже наивного байесовского алгоритма) над простыми функциями (например, символьными n-граммами)?Также могут быть добавлены дистрибутивные функции (я имею в виду w2v), потому что они говорят о теме, а темы могут быть информативными (например, в медицине и технологии в целом, английских слов, вероятно, относительно больше, чем в других областях).