Quora дублирование идентификационной пары вопросов - PullRequest
0 голосов
/ 11 мая 2019

Я пытаюсь работать с набором данных Quora Question Pairs, чтобы определить, дублируют они или нет. Я использую BI-LSTM и потерю триплетов в качестве функции потерь. Предполагается, что потеря тройки сблизит повторяющиеся вопросы и раздвинет не дублирующие вопросы. После обучения нескольких эпох я вычислил расстояние l2, и распределение расстояния l2 выглядит следующим образом:

Для дубликатов образцов:

enter image description here

Для вопросов, не повторяющихся: enter image description here

Из рисунка видно, что существует много неправильной классификации. Я не уверен, как идти дальше с оптимизацией сети. Я использую размер партии всего 32. Я думаю, что это должно заботиться о выбросах во время тренировки Есть ли какая-либо другая стратегия выборки партий, которую я могу использовать для ее дальнейшей оптимизации?

...