Загрузка, распечатка и использование модулей и функций R в PL / R - PullRequest
2 голосов
/ 28 мая 2010

У меня проблемы с:

  • Список пакетов и функций R, доступных для PostgreSQL.
  • Установка пакета (например, Kendall ) для использования с PL / R
  • Вызов функции R в PostgreSQL

Список доступных пакетов R

Q.1. Как узнать, какие модули R были загружены?

SELECT * FROM r_typenames();

Показывает доступные типы, но как насчет проверки, загружен ли Kendall( X, Y )? Например, документация показывает:

CREATE TABLE plr_modules (
  modseq int4,
  modsrc text
);

Это, кажется, позволяет вставлять записи, чтобы продиктовать загрузку Kendall, но следующий код синтаксически не объясняет, как обеспечить загрузку:

INSERT INTO plr_modules
  VALUES (0, 'pg.test.module.load <-function(msg) {print(msg)}');

Q.2. Как бы выглядела строка выше, если вы пытаетесь загрузить Kendall?
Q.3. Это применимо?

Установка пакетов R

С помощью менеджера пакетов «synaptic» были установлены следующие пакеты:

r-base
r-base-core
r-base-dev
r-base-html
r-base-latex
r-cran-acepack
r-cran-boot
r-cran-car
r-cran-chron
r-cran-cluster
r-cran-codetools
r-cran-design
r-cran-foreign
r-cran-hmisc
r-cran-kernsmooth
r-cran-lattice
r-cran-matrix
r-cran-mgcv
r-cran-nlme
r-cran-quadprog
r-cran-robustbase
r-cran-rpart
r-cran-survival
r-cran-vr
r-recommended

Q.4. Как я узнаю, что Кендалл там?
Q.5. Если это не так, как мне узнать, в каком пакете он находится?
Q.6. Если его нет в пакете, подходящем для установки с apt-get (aptitude, synaptic, dpkg, что у вас), как мне его установить? в Ubuntu?
Q.7. Где документированы этапы установки?

Вызов функций R

У меня есть следующий код:

EXECUTE 'SELECT '
  'regr_slope( amount, year_taken ),'
  'regr_intercept( amount, year_taken ),'
  'corr( amount, year_taken ),'
  'sum( measurements ) AS total_measurements '
'FROM temp_regression'
INTO STRICT slope, intercept, correlation, total_measurements;

Этот код вызывает функцию PostgreSQL corr для вычисления корреляции Пирсона по данным. В идеале я хотел бы сделать следующее (переключив corr на plr_kendall):

EXECUTE 'SELECT '
  'regr_slope( amount, year_taken ),'
  'regr_intercept( amount, year_taken ),'
  'plr_kendall( amount, year_taken ),'
  'sum( measurements ) AS total_measurements '
'FROM temp_regression'
INTO STRICT slope, intercept, correlation, total_measurements;

Q.8. Должен ли я сам написать plr_kendall
Q.9. Где я могу найти простой пример, который проходит через:

  1. Загрузка модуля R в PG.
  2. Написание оболочки PG для желаемой функции R.
  3. Вызов оболочки PG из SELECT.

Например, будут ли последние два шага выглядеть так:

create or replace function plr_kendall( _float8, _float8 ) returns float as '
  agg_kendall(arg1, arg2)
' language 'plr';

CREATE AGGREGATE agg_kendall (
  sfunc = plr_array_accum,
  basetype = float8, -- ???
  stype = _float8, -- ???
  finalfunc = plr_kendall
);

А потом SELECT как выше?

Спасибо!

1 Ответ

7 голосов
/ 29 мая 2010

Обзор

Эти шаги показывают, как вызвать функцию R из PostgreSQL, используя PL / R.

Prerequisties

У вас уже должны быть установлены PostgreSQL, R и PL / R.

Steps

  1. Найти имя модуля R (например, Kendall)
  2. Изменить пользователя базы данных: sudo su - postgres
  3. Run R R
  4. Установите модуль R (примите $HOME/R/x86_64-pc-linux-gnu-library/2.9/): install.packages("Kendall", dependencies = TRUE)
  5. При появлении запроса выберите зеркало CRAN.
  6. Создайте следующую таблицу: CREATE TABLE plr_modules ( modseq int4, modsrc text );
  7. Вставьте в эту таблицу директиву для загрузки соответствующего модуля R: INSERT INTO plr_modules VALUES (0, 'library(Kendall)' );
  8. Перезапустить базу данных (или SELECT * FROM reload_plr_modules();): sudo /etc/init.d/postgresql-8.4 restart
  9. Создайте функцию-обертку в PostgreSQL: CREATE OR REPLACE FUNCTION climate.plr_corr_kendall( double precision[], double precision[] ) RETURNS double precision AS $BODY$ Kendall(arg1, arg2) $BODY$ LANGUAGE 'plr' VOLATILE STRICT;
  10. Создайте функцию, которая использует функцию-обертку.
  11. Проверьте новую функцию.

Функция обертки

Эта функция выполняет сбор данных из базы данных и создание двух массивов. Эти массивы передаются в функцию-оболочку plr_corr_kendall.

CREATE OR REPLACE FUNCTION climate.analysis_vector()
RETURNS double precision AS
$BODY$
DECLARE
  v_year_taken double precision[];
  v_amount double precision[];
  i RECORD;
BEGIN
  FOR i IN (
  SELECT
    extract(YEAR FROM m.taken) AS year_taken,
    avg( m.amount ) AS amount
  FROM
    climate.city c,
    climate.station s,
    climate.station_category sc,
    climate.measurement m
  WHERE 
    c.id = 5148 AND 
    earth_distance( 
      ll_to_earth(c.latitude_decimal,c.longitude_decimal), 
      ll_to_earth(s.latitude_decimal,s.longitude_decimal)) <= 30 AND 
    s.elevation BETWEEN 0  AND  3000  AND 
    s.applicable AND 
    sc.station_id = s.id AND 
    sc.category_id = 1 AND 
    extract(YEAR FROM sc.taken_start) >= 1900 AND 
    extract(YEAR FROM sc.taken_end) <= 2009 AND 
    m.station_id = s.id AND 
    m.taken BETWEEN sc.taken_start AND sc.taken_end AND 
    m.category_id = sc.category_id 
  GROUP BY 
    extract(YEAR FROM m.taken)
  ORDER BY
    extract(YEAR FROM m.taken)
  ) LOOP
    SELECT array_append( v_year_taken, i.year_taken ) INTO v_year_taken;
    SELECT array_append( v_amount, i.amount::double precision ) INTO v_amount;
  END LOOP;

  RAISE NOTICE '%', v_year_taken;
  RAISE NOTICE '%', v_amount;

  RETURN climate.plr_corr_kendall( v_year_taken, v_amount );
END;
$BODY$
LANGUAGE 'plpgsql' VOLATILE
COST 100;

Тест

Проверьте функцию следующим образом:

SELECT
  *
FROM
  climate.analysis_vector();

Результат

Число: -0,0578900910913944

...