Mysql многомерная линейная регрессия - PullRequest
0 голосов
/ 18 января 2010

Я пытаюсь сделать многопараметрическую (9 переменных) линейную регрессию для данных в моей базе данных mysql 5.0 (поле значений результата имеет только 2 возможных значения, 1 и 0).

Я провел поиск и обнаружил, что могу использовать:

mysql> SELECT
    -> @n := COUNT(score) AS N,
    -> @meanX := AVG(age) AS "X mean",
    -> @sumX := SUM(age) AS "X sum",
    -> @sumXX := SUM(age*age) "X sum of squares",
    -> @meanY := AVG(score) AS "Y mean",
    -> @sumY := SUM(score) AS "Y sum",
    -> @sumYY := SUM(score*score) "Y sum of square",
    -> @sumXY := SUM(age*score) AS "X*Y sum"

Чтобы получить многие из основных переменных регрессии, но я действительно не хочу вводить это для каждой комбинации из 9 переменных. Все источники, которые я могу найти о том, как сделать регрессию для нескольких переменных, требуют Матричные операции . Могу ли я выполнять операции Matrix с mysql, или есть другие способы сделать линейную регрессию с 9 переменными?

Должен ли я сначала экспортировать данные из mysql? Его ~ 80 000 строк, так что было бы неплохо переместить его, но я не уверен, что еще мне следует использовать.

Спасибо, Dan

Ответы [ 2 ]

1 голос
/ 24 февраля 2010

Я бы порекомендовал перенести данные из MySQL в R. С данными ответов 1/0 логистическая регрессия гораздо более уместна, и это не просто сумма квадратов, которую вы реализуете.

http://en.wikipedia.org/wiki/Logistic_regression

Это, похоже, хорошо показывает, как решить логистику

http://www.omidrouhani.com/research/logisticregression/html/logisticregression.htm#_Toc147483467

1 голос
/ 18 января 2010

Хорошо хранить эти данные в MySQL, но вы можете обрабатывать данные с языка, который имеет доступ к базе данных.Псевдокод:

variables = [ 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I' ];

for X in $variables do
    for Y in $variables do
        query = 'SELECT
            @'+$X+$Y+' := COUNT(score) AS '+$X+$Y+',
            @mean'+$X+' := AVG(age) AS "X mean",
            @sum'+$X+' := SUM(age) AS "X sum",
            @sum'+$X+$X+' := SUM(age*age) "X sum of squares",
            @mean'+$Y+' := AVG(score) AS "Y mean",
            @sum'+$Y+' := SUM(score) AS "Y sum",
            @sum'+$Y+$Y+' := SUM(score*score) "Y sum of square",
            @sum'+$X+$Y+' := SUM(age*score) AS "X*Y sum"';
        db_execute(query);
    done
done

но почему бы не сохранить результаты в таблице?Более подходит для базы данных.

for X in $variables do
    for Y in $variables do
        query = 'INSERT INTO regression SELECT FROM measurements
            "'+$X+'" AS X
            "'+$Y+'" AS Y
            score AS valX
            age AS valY
            COUNT(score) AS N,
            AVG(age) AS meanX,
            SUM(age) AS sumX,
            SUM(age*age) squareX,
            AVG(score) AS meanY,
            SUM(score) AS sumY,
            SUM(score*score) squareY,
            SUM(age*score) AS sumXY';
        db_execute(query);
    done
done

Поместите отдельный индекс в столбцы X и Y.

...