Используйте BERT для выделения уникального слова - PullRequest
1 голос
/ 08 апреля 2019

Я использую BERT для извлечения признаков из текста, где оно появляется, но, похоже, текущая реализация в официальном github Берта (https://github.com/google-research/bert) может вычислять только свойства всех слов в тексте, что делает он потребляет слишком много ресурсов. Можно ли адаптировать его для этой цели? Спасибо !!

1 Ответ

5 голосов
/ 08 апреля 2019

BERT не является контекстно-свободным преобразователем, что означает, что вы не хотите использовать его для одного слова, как если бы вы использовали word2vec. Это действительно важно - вы хотите контекстуализировать свой вклад. Я имею в виду, что вы можете ввести предложение из одного слова, но тогда почему бы просто не использовать word2vec.

Вот что говорит README:

Предварительно обученные представления также могут быть не зависящими от контекста или контекстуальные и контекстные представления могут быть далее однонаправленный или двунаправленный. Модели без контекста, такие как word2vec или GloVe генерирует одно представление «встраивания слов» для каждого слово в словаре, поэтому банк будет иметь такое же представление в банковский депозит и речной берег. Контекстные модели вместо этого генерируют представление каждого слова, основанного на других словах в предложение.

Надеюсь, что имеет смысл: -)

...