BigQuery-ML Могу ли я использовать агрегированные данные в двоичной логистической c регрессии? - PullRequest
0 голосов
/ 14 июля 2020

Я хотел бы подогнать бинарную регрессионную модель logisti c в Google BigQuery-ML (https://cloud.google.com/bigquery-ml/docs/logistic-regression-prediction). Данные представлены в агрегированном формате, где одна строка содержит несколько наблюдений, скажем, 4000, из которых, скажем, 1000 были успешными (скажем, 4000 посещений, 1000 продаж, то есть коэффициент конверсии 25%). Конечно, у меня также есть ряд функций в наборе данных.

Вопрос: есть ли способ использовать этот вид агрегированных данных в бинарной логистической модели c регрессии в BigQuery ML, или я могу использовать только данные, где 1 наблюдение равно 1 строке?

Насколько я понял документацию, модель будет интерпретировать все, что угодно, кроме 0/1 в DV, как категории полиномиальной модели, что я не хочу делать.

Для справки, в функции R glm можно либо указать веса cvr +, либо использовать двухколоночную матрицу испытаний и успехов в качестве DV. Это то, что я хочу сделать и в BQ-ML.

Технические характеристики модели:

CREATE OR REPLACE MODEL
  `census.census_model`
OPTIONS
  ( model_type='LOGISTIC_REG',
    auto_class_weights=TRUE,
    data_split_method='NO_SPLIT',
    input_label_cols=['income_bracket'],
    max_iterations=15) AS
SELECT
  *
FROM
  `census.input_view`
WHERE
  dataframe = 'training'
...