У меня есть очень большая таблица, где каждая строка представляет абстракцию, называемую Trip. Поездки состоят из числовых столбцов, таких как идентификатор транспортного средства, идентификатор поездки, время начала, время остановки, пройденное расстояние, продолжительность вождения и т. Д. Таким образом, каждая поездка представляет собой одномерный вектор значений с плавающей запятой.
Я хочу преобразовать этотаблица или список векторов, в список последовательностей отключений, в которых отключения группируются в последовательности по идентификатору транспортного средства и располагаются в порядке, соответствующем времени начала. Длина последовательности должна быть ограничена определенным размером, например 256, но может / должно быть несколько последовательностей с одним и тем же идентификатором VehicleId.
Пример:
(длина последовательности = 4)
[
(Vehicle1, [Trip1, Trip2, Trip3, Trip4]),
(Vehicle1, [Trip5, Trip6, Trip7]),
(Vehicle2, [Trip1, Trip2, Trip3, Trip4])
]
Я пытаюсь смоделировать схемы вождения на основе этих поездок, используя основанную на последовательности модель, такую как LSTM / Transformer. Представьте каждую поездку как вложение слова и каждую последовательность поездок как предложение. Каким-то образом мне нужно построить эти предложения с помощью комбинации функций BigQuery / Apache Beam (или любых других рекомендуемых инструментов), поскольку речь идет о сотнях гигабайт данных. Я довольно плохо знаком с обоими инструментами, поэтому любая помощь будет принята с благодарностью.