Question

Я понимаю, что уже есть еще один пост , но он немного устарел и на самом деле не отвечает на вопрос.

Я понимаю, что мы можем использовать параметр DATA_SPLIT_METHOD для разделения набора данных для обучение и оценка. Но как мне убедиться, что они оба представляют собой разные наборы данных?

Так, например, я установил для DATA_SPLIT_METHOD значение AUTO_SPLIT, и мой набор данных находится в диапазоне от 500 до 500 тыс. Строк, поэтому 20% данных будут используется в качестве оценки. Как мне убедиться, что оставшиеся 80% будут использованы для обучения, когда я проведу свою оценку (ML.EVALUATE?

aemon4 · Answer 1 · 25 февраля 2020

Короткий ответ: BigQuery сделает это за вас.

Длинный ответ будет таким: DATA_SPLIT_METHOD - это параметр CREATE MODEL , который после вызова уже создаст и обучите модель, используя правильный процент, установленный в DATA_SPLIT_METHOD.

Когда вы запускаете ML.EVALUATE, вы запускаете его для модели, у которой в качестве параметра будет DATA_SPLIT_METHOD. Следовательно, он уже знает, какая часть набора данных должна оцениваться, и использует уже обученную модель.

Как явно разделить данные для обучения и оценки с BigQuery ML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как явно разделить данные для обучения и оценки с BigQuery ML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов