Обновление модели BERT через трансформаторы Huggingface - PullRequest
0 голосов
/ 30 октября 2019

Я пытаюсь обновить предварительно обученную модель BERT, используя внутренний корпус. Я посмотрел на документацию по трансформатору Huggingface, и я немного застрял, как вы увидите ниже. Моя цель - вычислить простые сходства между предложениями, используя косинусное расстояние, но мне нужно обновить предварительно обученную модель для моего конкретного случая использования.

Если вы посмотрите на приведенный ниже код, именно из документов Huggingface. Я пытаюсь «переобучить» или обновить модель, и я предположил, что special_token_1 и special_token_2 представляют «новые предложения» из моих «внутренних» данных или корпуса. Это верно? Таким образом, мне нравится уже предварительно обученная модель BERT, но я хотел бы обновить ее или переобучить, используя другой набор данных в доме. Любые выводы будут оценены.

import tensorflow as tf
import tensorflow_datasets
from transformers import *

model = BertModel.from_pretrained('bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

SPECIAL_TOKEN_1="dogs are very cute"
SPECIAL_TOKEN_2="dogs are cute but i like cats better and my 
brother thinks they are more cute"

tokenizer.add_tokens([SPECIAL_TOKEN_1, SPECIAL_TOKEN_2])
model.resize_token_embeddings(len(tokenizer))
#Train our model
model.train()
model.eval()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...