Как рассчитывается показатель сходства semanti c в наборе данных STS Benchmark? - PullRequest
0 голосов
/ 23 февраля 2020

Это репозиторий GitHub: https://github.com/brmson/dataset-sts

Набор данных STS Benchmark содержит около 4000 пар похожих и разнородных предложений вместе с семантическими c показателями сходства.

Задача, которую я пытаюсь выполнить: у меня есть другой пользовательский набор данных, в котором также есть пары похожих и разнородных предложений. (всего 200 пар)

Я хочу объединить эти два набора данных (STS и мой пользовательский набор данных) и использовать его для тонкой настройки модели Берта. (Преобразователь предложений Берта: https://github.com/UKPLab/sentence-transformers)

Но для модели требуется оценка сходства semanti c всех пар предложений. Как рассчитать этот балл для предложений, которые у меня есть в моем пользовательском наборе данных?

Он должен быть вычислен так же, как и для пар предложений в наборе данных STS Benchmark.

Этот поток очень похож, но не совсем отвечает вопрос, который я ищу: Берт настроен на семанти c сходство

1 Ответ

1 голос
/ 25 февраля 2020

Наборы данных STS аннотируются вручную, то есть, мы, люди, в l oop, который сказал, насколько похожи предложения. В наборах данных SemEval есть довольно сложная процедура аннотации, где каждая пара предложений аннотируется несколькими людьми, чтобы обеспечить некоторый консенсус. Это также, как вы можете получить свой пользовательский набор данных.

Оценка STS - это коэффициент корреляции между оценкой сходства, оцененной людьми-аннотаторами, и сходством, оцененным вашей моделью.

...