Использование R и Python с Vantage |Часть 1: Обзор: https://www.youtube.com/watch?v=VjgFWBc2kTM
A: Опции на стороне клиента
Дополнительная библиотека «tdplyr» R (свободно доступна на downloads.teradata.com) построен на основе dplyr специально для взаимодействия с серверами Vantage.В дополнение к функциям, предоставляемым «dplyr», он также предоставляет оболочки R для более чем 100+ аналитических функций в недавно представленном компоненте Machine Learning Engine (MLE) систем Vantage и 9 аналитических функций в Advanced SQL Engine (ASQLE; первый из них);База данных Teradata) компонент систем Vantage.Таким образом, пакет Teradata R для клиентов, «tdplyr», позволяет выполнять как обработку данных, так и беспроблемную аналитику в базе данных с данными прямо из базы данных, тем самым избавляя клиентов от необходимости перемещать любые данные из базы данных на клиента и обратно.
Документацию «tdplyr» можно найти по адресу: https://docs.teradata.com/reader/EZAbQ2BX~vKBrWDQ3v7fPQ/qPSuQaTN2CYD~KUvLxY7mg.
Аналитика с «tdplyr» демонстрируется во второй части серии TechBytes «R and Python with Vantage» по адресу: https://www.youtube.com/watch?v=_DCbTpWSLJI
B: Опции в узлах
Teradata также предлагает решения в узлах для пользователей R через оператора таблицы SCRIPT (STO; начиная с базы данных Teradata v.15.00) и таблицы ExecRОператор (ExecR; начиная с базы данных Teradata v.15.10).Оба подхода позволяют пользователям приносить свои R-сценарии и выполнять их непосредственно в базе данных на экземплярах интерпретатора R, которые выполняются на каждом узле ASQLE.Из-за особенностей архитектуры базы данных этот подход является наиболее подходящим и эффективным для:
a) задач скоринга моделей, когда сценарию R требуется только одна строка данных в качестве входных данных для оценки ее по данной модели;по этой причине задача скоринга чрезвычайно эффективно выполняется на всех узлах, что называется «смущающей параллелью».
b) подборка нескольких моделей путем разделения таблицы данных по некоторой функции;в этом сценарии каждый AMP (блок обработки базы данных ASQLE) обрабатывает все данные одного раздела, и это приводит к одновременному подгонке всех моделей параллельно.
Более сложный сценарий - это когда пользователь желаетустановить модель с данными по всей базе данных;Как правило, эти задачи включают в себя операции в два этапа, где на первом этапе выполняется сценарий, который получает частичные результаты от каждой фазы AMP («отображение»), а на втором этапе второй сценарий должен использовать эти частичные ответы, чтобы получить окончательный вариант.результат (фаза «уменьшения»).Этот подход возлагает ответственность за программирование на пользователя (в отличие от аналитических функций MLE, которые безошибочно выполняют эту последовательность шагов для пользователя при подборе моделей от клиента).Предел обработки памяти для ExecR составляет 3,5 ГБ на AMP.
B.1: ExecR
Пользователи могут переносить свои R-скрипты непосредственно в ExecR, но ввод и вывод данныхчасти, где скрипт взаимодействует с базой данных, нуждаются в соответствующей модификации с помощью так называемых функций FNC в ExecR.Это встроенные в Teradata функции R, которые переносят эти задачи передачи данных и метаданных.Подробную документацию ExecR можно найти по адресу:
https://docs.teradata.com/reader/T5QsmcznbJo1bHmZT2KnFw/EabyaGA8DZhLIXy~uhzvsA
B.2: SCRIPT
Оператор таблицы SCRIPT (STO): в этомПри таком подходе сценарий получает данные из одной таблицы через стандартный ввод сценария, должен правильно интерпретировать входные типы данных для R и отправляет результаты в базу данных (или интерфейс SQL) через стандартный вывод сценария.Следовательно, в этом подходе сегменты ввода и вывода данных сценария R должны быть соответствующим образом скомпонованы перед загрузкой сценария в базу данных и выполнением его через STO.Кроме этого, экземпляр сценария выполняется точно на интерпретаторе R в каждом AMP базы данных, как если бы он выполнялся на клиенте.