Использование BERT для определения языка данного слова - PullRequest
1 голос
/ 23 июня 2019

У меня есть слова на иврите.Часть из них изначально на английском языке, а часть - «иврит-английский», что означает, что это слова, которые изначально были из английского, но написаны на иврите.Например: «инсулин» на иврите это «אינסולין» (тот же фонетический звук).

У меня есть простой набор двоичных данных.X: слова (написанные ивритом) y: метка 1, если слово изначально написано на английском языке и написано ивритом, иначе 0

Я пробовал использовать классификатор, но ввод для него полонтекст, и мой вклад просто слова.

Я не хочу, чтобы происходило МАСКИРОВАНИЕ, я просто хочу простую классификацию.

Возможно ли использовать BERT для этой миссии?Спасибо

1 Ответ

2 голосов
/ 23 июня 2019

BERT предназначен для работы со словами в контексте.Без контекста BERT-подобная модель эквивалентна простому поиску word2vec (есть причудливый токенизация, но я не знаю, как она работает с ивритом - возможно, не очень эффективно).Поэтому, если вы действительно хотите использовать функции распределения в своем классификаторе, вы можете вместо этого взять предварительно обученную модель word2vec - она ​​проще, чем BERT, и не менее мощна.

Но я не уверен, что она все равно будет работать.Word2vec и его эквиваленты (например, BERT без контекста) мало знают о внутренней структуре слова - только о контекстах, в которых оно используется. Однако в вашей задаче структура слова важнее возможных контекстов.Например, слова בלוטת (железа) или דם (кровь) или סוכר (сахар) часто встречаются в том же контексте, что и инсулин, но בלוטת и דם - иврит, в то время как סוכר - английский (хорошо, первоначально по-арабски, но мы, вероятно, не заинтересованыв слишком древнем происхождении).Вы просто не можете предсказать это только из контекста.

Так почему бы не начать с некоторой простой модели (например, логистической регрессии или даже наивного байесовского алгоритма) над простыми функциями (например, символьными n-граммами)?Также могут быть добавлены дистрибутивные функции (я имею в виду w2v), потому что они говорят о теме, а темы могут быть информативными (например, в медицине и технологии в целом, английских слов, вероятно, относительно больше, чем в других областях).

...