Классификация временных рядов - насколько они совпадают? - PullRequest
0 голосов
/ 07 июля 2019

Я пытаюсь выполнить классификацию последовательностей, используя LSTM. Допустим, у меня есть два временных ряда, серия A и серия B. Временной ряд A имеет длину, почти в 100 раз превышающую серию B. Мне нравится разрабатывать сбалансированный набор данных для прогнозирования оконной версии этих временных рядов.

Предположим, мои данные выглядят так

series_a = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"
series_b = 'ijklmnopq'

Моя цель - создать набор данных, который выглядит следующим образом (скажем, окно 5 и перекрытие 80%):

sequence -----label
ABCDE         1
BCDEF         1
CDEFG         1
.
.
.
ijklm         2
jklmn         2
klmno         2
...

У меня два вопроса:

1 - Какое перекрытие я должен установить? Есть ли какой-нибудь стандарт? Если у меня есть более низкое перекрытие, мои данные существенно уменьшаются, в то время как, если у меня слишком много перекрытий, я могу смещать модель.

2- Могу ли я иметь одно окно перекрытия для временного ряда A и другое значение для временного ряда B? Это позволяет мне иметь сбалансированный набор данных, так как я могу иметь гораздо большее перекрытие для серии B и увеличить частоту моего меньшего временного ряда. Является ли это допустимым методом для повышения частоты дискретизации?

Любая идея или прошлый опыт высоко ценится.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...