Как явно разделить данные для обучения и оценки с BigQuery ML? - PullRequest
1 голос
/ 24 февраля 2020

Я понимаю, что уже есть еще один пост , но он немного устарел и на самом деле не отвечает на вопрос.

Я понимаю, что мы можем использовать параметр DATA_SPLIT_METHOD для разделения набора данных для обучение и оценка. Но как мне убедиться, что они оба представляют собой разные наборы данных?

Так, например, я установил для DATA_SPLIT_METHOD значение AUTO_SPLIT, и мой набор данных находится в диапазоне от 500 до 500 тыс. Строк, поэтому 20% данных будут используется в качестве оценки. Как мне убедиться, что оставшиеся 80% будут использованы для обучения, когда я проведу свою оценку (ML.EVALUATE?

1 Ответ

2 голосов
/ 25 февраля 2020

Короткий ответ: BigQuery сделает это за вас.

Длинный ответ будет таким: DATA_SPLIT_METHOD - это параметр CREATE MODEL , который после вызова уже создаст и обучите модель, используя правильный процент, установленный в DATA_SPLIT_METHOD.

Когда вы запускаете ML.EVALUATE, вы запускаете его для модели, у которой в качестве параметра будет DATA_SPLIT_METHOD. Следовательно, он уже знает, какая часть набора данных должна оцениваться, и использует уже обученную модель.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...