Значение двух наборов данных, имеющих разные распределения, и почему нейронная сеть не может работать с ними вместе? - PullRequest
0 голосов
/ 12 января 2020

Я использую наборы данных разных проектов с входными объектами (глубина дерева наследования, количество дочерних элементов, количество методов), где эти функции имеют значения для класса в каждом отдельном проекте.
Я читал много статей о том, что нейронная сеть или любая другая модель не могут работать с наборами данных разных распределений

Мой вопрос:
1. что означает наборы данных с разными распределениями (когда один набор данных имеет несколько выборок, каждый образец, соответствующий классу в этом проекте)
2. Почему NN или любой другой алгоритм не может работать с 2 наборами данных разных распределений

Заранее спасибо.

1 Ответ

0 голосов
/ 12 января 2020

Одним из наиболее часто используемых предположений при формулировании статистической проблемы обучения является то, что выборки являются IID, это означает, что ваши выборки распределены одинаково, поэтому вся выборка должна быть получена из одного и того же распределения. Когда вы говорите, что у вас есть две разные dataet, это означает, что это предположение неверно, и большинство теоретических гарантий больше не выполняются. Теперь, возможно, ваш вопрос в том, что означает «распределение данных», это просто совместный закон p (x, y), где x - это функции, а y - метки. Таким образом, два набора данных имеют разные распределения, это означает, что p_ {1} (x, y)! = P_ {2} (x, y)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...