Я пытаюсь выполнить классификацию последовательностей, используя LSTM. Допустим, у меня есть два временных ряда, серия A и серия B. Временной ряд A имеет длину, почти в 100 раз превышающую серию B. Мне нравится разрабатывать сбалансированный набор данных для прогнозирования оконной версии этих временных рядов.
Предположим, мои данные выглядят так
series_a = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"
series_b = 'ijklmnopq'
Моя цель - создать набор данных, который выглядит следующим образом (скажем, окно 5 и перекрытие 80%):
sequence -----label
ABCDE 1
BCDEF 1
CDEFG 1
.
.
.
ijklm 2
jklmn 2
klmno 2
...
У меня два вопроса:
1 - Какое перекрытие я должен установить? Есть ли какой-нибудь стандарт? Если у меня есть более низкое перекрытие, мои данные существенно уменьшаются, в то время как, если у меня слишком много перекрытий, я могу смещать модель.
2- Могу ли я иметь одно окно перекрытия для временного ряда A и другое значение для временного ряда B? Это позволяет мне иметь сбалансированный набор данных, так как я могу иметь гораздо большее перекрытие для серии B и увеличить частоту моего меньшего временного ряда. Является ли это допустимым методом для повышения частоты дискретизации?
Любая идея или прошлый опыт высоко ценится.