Я пытаюсь сделать двоичный предиктор для некоторых данных, который имеет один столбец с текстом и несколько дополнительных столбцов с числовыми значениями.Моим первым решением было использовать word2vec в тексте, чтобы извлечь 30 объектов и использовать их с другими значениями в случайном лесу.Это дает хороший результат.Я заинтересован в улучшении модели TEXT to FEATURE.
Затем я хотел улучшить алгоритм извлечения признаков с помощью BERT.Мне удалось реализовать предварительно обученную модель BERT для извлечения признаков с некоторым улучшением до word2vec.
Теперь я хочу знать, как я могу точно настроить модель BERT для своих данных - чтобы улучшить извлечение функциймодель - чтобы получить лучший текст к функциям для моего алгоритма Random Forest.Я знаю, как точно настроить BERT для двоичного предиктора (BertForSequenceClassification), но не знаю, как настроить его для создания лучшей модели извлечения текста в объект BERT.Могу я как-то использовать слои в BertForSequenceClassification ??Я потратил 2 дня, пытаясь найти решение, но пока не справился ...
С уважением, Питер