Попытка адаптировать Pre-Trained BERT к другому варианту использования semanti c разделения предложений - PullRequest
1 голос
/ 10 апреля 2020

Я использовал Huntingface BERT для классификации предложений с очень хорошими результатами, но теперь я хочу применить его к другому варианту использования. Ниже приведен тип набора данных (не точный), который я имею в виду.

 set_df.head()
    sentence                                subject                   object
0   my big red dog has a big fat bone       my big red dog          big fat bone
1   The Queen of Spades lives in a Castle   The Queen of spades     lives in a castle

У меня есть набор данных поезда с этими тремя столбцами, и я хочу, чтобы он мог разделить тестовые предложения на его составляющие. Я изучил различные предварительно обученные модели в BERT, но не добился успеха. Я использую не тот инструмент?

1 Ответ

0 голосов
/ 10 апреля 2020

Я думаю, что лучший вопрос - уточнить, как вы формулируете задачу: если, на самом деле, составляющие не перекрываются, это может иметь место для BertForTokenClassification. По сути, вы пытаетесь предсказать метки каждого отдельного токена , в вашем случае что-то вроде no label, subject или object.

Отличный пример для этого Вид задачи: Распознавание именованных объектов (NER) , которое обычно создается аналогичным образом. В частности, в хранилище трансформаторов HuggingFace есть очень обширный пример , доступный для вас, который может послужить вдохновением для того, как форматировать входы и как правильно тренироваться.

...