Я пытаюсь работать с набором данных Quora Question Pairs, чтобы определить, дублируют они или нет. Я использую BI-LSTM и потерю триплетов в качестве функции потерь. Предполагается, что потеря тройки сблизит повторяющиеся вопросы и раздвинет не дублирующие вопросы. После обучения нескольких эпох я вычислил расстояние l2, и распределение расстояния l2 выглядит следующим образом:
Для дубликатов образцов:
Для вопросов, не повторяющихся:
Из рисунка видно, что существует много неправильной классификации. Я не уверен, как идти дальше с оптимизацией сети. Я использую размер партии всего 32. Я думаю, что это должно заботиться о выбросах во время тренировки Есть ли какая-либо другая стратегия выборки партий, которую я могу использовать для ее дальнейшей оптимизации?