Как извлечь элементы из текста на основе тонко настроенной модели BERT - PullRequest
1 голос
/ 23 сентября 2019

Я пытаюсь сделать двоичный предиктор для некоторых данных, который имеет один столбец с текстом и несколько дополнительных столбцов с числовыми значениями.Моим первым решением было использовать word2vec в тексте, чтобы извлечь 30 объектов и использовать их с другими значениями в случайном лесу.Это дает хороший результат.Я заинтересован в улучшении модели TEXT to FEATURE.

Затем я хотел улучшить алгоритм извлечения признаков с помощью BERT.Мне удалось реализовать предварительно обученную модель BERT для извлечения признаков с некоторым улучшением до word2vec.

Теперь я хочу знать, как я могу точно настроить модель BERT для своих данных - чтобы улучшить извлечение функциймодель - чтобы получить лучший текст к функциям для моего алгоритма Random Forest.Я знаю, как точно настроить BERT для двоичного предиктора (BertForSequenceClassification), но не знаю, как настроить его для создания лучшей модели извлечения текста в объект BERT.Могу я как-то использовать слои в BertForSequenceClassification ??Я потратил 2 дня, пытаясь найти решение, но пока не справился ...

С уважением, Питер

1 Ответ

0 голосов
/ 28 сентября 2019

Я тоже занимаюсь этой проблемой.Насколько я знаю, вы должны точно настроить языковую модель BERT;в соответствии с предлагается этот вопрос , в масках LM .Затем вы можете использовать Bert-as-service для извлечения функций.Обратите внимание, что я еще не проверял это, но я собираюсь.Я думал, что было бы хорошо, чтобы поделиться этим с вами :) 1007 *

...