Teradataml (Teradata Python): предоставляет ли Teradata Python Package какие-либо примеры наборов данных? - PullRequest
0 голосов
/ 10 октября 2019

Предоставляет ли Teradata Python Package какие-либо примеры наборов данных, чтобы пользователь мог опробовать различные аналитические функции?

1 Ответ

0 голосов
/ 10 октября 2019

Пакет Teradata Python предоставляет различные API с примерами наборов данных. Примеры наборов данных могут быть загружены с помощью вспомогательной функции под названием «load_example_data ()»

Эта функция принимает 2 аргумента:

  1. имя_функции - этопредопределенное значение. Это префикс имени файла примера JSON, который будет использоваться для загрузки данных. Например, dataframe_example.json или adaboost_example.json

  2. имя_таблицы - здесь указывается имя таблицы, создаваемой в базе данных.

Например,

from teradataml.dataframe.dataframe import DataFrame
from teradataml import load_example_data
from teradataml.context.context import *

con = create_context(host="myhost", username="myusername", password="mypassword")
load_example_data("dataframe","sales")
df = DataFrame("sales")
df
              Feb    Jan    Mar    Apr    datetime
accounts                                          
Yellow Inc   90.0    NaN    NaN    NaN  04/01/2017
Alpha Co    210.0  200.0  215.0  250.0  04/01/2017
Jones LLC   200.0  150.0  140.0  180.0  04/01/2017
Orange Inc  210.0    NaN    NaN  250.0  04/01/2017
Blue Inc     90.0   50.0   95.0  101.0  04/01/2017
Red Inc     200.0  150.0  140.0    NaN  04/01/2017


load_example_data('adaboost','housing_train')
df1=DataFrame("housing_train") 
df1
       price  lotsize  bedrooms  bathrms  stories driveway recroom fullbase gashw airco  garagepl prefarea homestyle
sn                                                                                                                  
183  58000.0   4340.0         3        1        1      yes      no       no    no    no         0       no  Eclectic
366  99000.0  13200.0         2        1        1      yes      no      yes   yes    no         1       no  Eclectic
202  53900.0   2520.0         5        2        1       no      no      yes    no   yes         1       no  Eclectic
265  50000.0   3640.0         2        1        1      yes      no       no    no    no         1       no   Classic
305  60000.0   5800.0         3        1        1      yes      no       no   yes    no         2       no  Eclectic
101  57000.0   4500.0         3        2        2       no      no      yes    no   yes         0       no  Eclectic
427  49500.0   5320.0         2        1        1      yes      no       no    no    no         1      yes   Classic
284  45000.0   6750.0         2        1        1      yes      no       no    no    no         0       no   Classic
244  27000.0   3649.0         2        1        1      yes      no       no    no    no         0       no   Classic
509  87000.0   8372.0         3        1        3      yes      no       no    no   yes         2       no  Eclectic

В дальнейшем эти наборы данных можно использовать для различных операций: Пример 1 для фрейма данных:

Создание фрейма данных из представления

get_context().execute("CREATE VIEW mysales AS SELECT * FROM sales")
df2 = DataFrame("mysales", index_label="Jan")
df2
         accounts    Feb    Mar    Apr    datetime
Jan                                               
NaN    Yellow Inc   90.0    NaN    NaN  04/01/2017
200.0    Alpha Co  210.0  215.0  250.0  04/01/2017
150.0   Jones LLC  200.0  140.0  180.0  04/01/2017
NaN    Orange Inc  210.0    NaN  250.0  04/01/2017
50.0     Blue Inc   90.0   95.0  101.0  04/01/2017
150.0     Red Inc  200.0  140.0    NaN  04/01/2017

Назначение новых выражений столбцов в кадре данных.

assign(self, drop_columns = False, **kwargs) --- Возвращает новый кадр данных без изменения существующего кадра данных.

drop_columns = False - значение по умолчанию, в нем сохраняются столбцысформировать предыдущий фрейм данных. Если это 'true', то столбцы, которые не указаны в assign, удаляются из результирующего кадра данных. Рассчитать сумму продаж за февраль и январь

a=df.Feb
b=df.Jan
df.select(['Feb','Jan']).assign(sum=a+b)
     Feb    Jan    sum
0   90.0    NaN    NaN
1  210.0  200.0  410.0
2  200.0  150.0  350.0
3  210.0    NaN    NaN
4   90.0   50.0  140.0
5  200.0  150.0  350.0


df.assign(drop_columns = True, sum=a+b)
     sum
0    NaN
1  410.0
2  350.0
3    NaN
4  140.0
5  350.0
...