https://www.tensorflow.org/extras/candidate_sampling.pdf
Согласно тензорному потоку отрицательная выборка относится к логистическим потерям, в то время как выборка softmax относится к softmax.
Оба они в своей основе выбирают образцы отрицательных примеров для расчета потерь и обновления градиентов.
Для вашей модели используйте его, если ваш вывод очень большой (много классов) И обычные потери слишком медленны для вычисления. Если на выходе есть несколько классов, это не так много. Если в любом случае обучение быстрое, зачем прибегать к приближениям?