BERT работает хуже, чем word2vec - PullRequest
3 голосов
/ 22 апреля 2019

Я пытаюсь использовать BERT для ранжирования документов.Моя задача довольно проста.Я должен сделать рейтинг сходства для входного документа.Единственная проблема здесь в том, что у меня нет меток - так что это скорее качественный анализ.

Я собираюсь попробовать несколько методов представления документов - в основном word2vec, para2vec и BERT.

Для BERT я наткнулся на эту библиотеку.Я точно настроил модель с небольшим корпусом, около 150 000 документов.Я запускал его в течение 5 эпох, с размером пакета 16 и максимальной длиной seq 128. Однако, если я сравниваю производительность представления Берта с представлениями word2vec, по какой-то причине word2vec работает лучше для меня прямо сейчас.Для BERT я использовал последние четыре слоя для получения представления.

Я не слишком уверен, почему не отлаженная модель не работает.Я прочитал эту статью и эту другую ссылку, в которой говорилось, что BERT хорошо работает при точной настройке для задачи классификации.Однако, поскольку у меня нет этикеток, я оштрафовал и настроил их так, как это делается на бумаге - без присмотра.

Кроме того, мои документы сильно различаются по длине.Поэтому я отправляю им приговор прямо сейчас.В конце концов, мне все равно приходится усреднять вложения слова, чтобы получить вложение предложения.Есть идеи по лучшему методу?Я также прочитал здесь - что существуют различные способы объединения вложений в слова для получения фиксированного внедрения.Хотите знать, если есть сравнение того, какая техника объединения работает лучше?

Любая помощь в обучении BERT лучше или лучший метод объединения будут высоко оценены!

Спасибо,

...