Как сказал Роберто, разные случайные инициализации всегда приводят к разным полученным весам. Это совершенно очевидно, так как начальное состояние ограничивает возможные траектории системы.
Если вы прочитаете статью, в которой вводится Xavier init , вы увидите, что хорошо известно, что случайный init имеет большое влияние init на конечную производительность (есть документ, который показал, что сотни тренировок работает со случайным init все в конечном итоге в разных локальных минимумов, но я не могу найти его прямо сейчас). Именно по этой причине мы используем эвристики, такие как Xavier init: они имеют тенденцию приводить к лучшим локальным минимумам, чем другие формы случайной инициализации.
Как правило, каждый выполняет несколько обучающих прогонов (например, 10) и выбирает лучшую архитектуру, в статьях иногда также сообщается среднее значение.