Допустим, у меня есть несколько проб, где у одного проба есть два входных кадра данных:
Вход:
- Один постоянный поток данных (например, от датчика) Второй шаг: Несколько потоков от нескольких датчиков
> df_prob1_stream1
timestamp | ident | measure1 | measure2 | total_amount |
----------------------------+--------+--------------+----------+--------------+
2019-09-16 20:00:10.053174 | A | 0.380 | 0.08 | 2952618 |
2019-09-16 20:00:00.080592 | A | 0.300 | 0.11 | 2982228 |
... (1 million more rows - until a pre-defined ts) ...
Один статус c DataFrame информации, сопоставленный уникальному идентификатору
ident
, который должен быть присвоен столбцу
ident
в каждом
df_probX_streamX
, чтобы система могла распознать, что эти данные относящиеся.
> df_global
ident | some1 | some2 | some3 |
--------+--------------+----------+--------------+
A | LARGE | 8137 | 1 |
B | SMALL | 1234 | 2 |
Вывод:
- Двоичный классификатор
[0,1]
Так, как я могу подойти к поезду XGBoost
для быть в состоянии наилучшим образом использовать один timeseries
DataFrame в сочетании с одним static
DataFrame (связываясь с дополнительной контекстной информацией) в одном тесте? Любая помощь будет оценена.