Я создаю большой набор данных для хранения плотных векторов, представляющих пользователей (сгенерированных из алгоритма машинного обучения).Векторы могут иметь любую длину и всегда будут содержать float32.
Каков разумный способ структурировать мою схему для этого?Вот что у меня сейчас:
schema = [
bigquery.SchemaField('user_id', 'INTEGER', mode='REQUIRED'),
bigquery.SchemaField('embeddings', 'record', mode='REPEATED', fields=[
bigquery.SchemaField('embedding', 'record', mode='REPEATED', fields=[
bigquery.SchemaField('index', 'INTEGER', mode='REQUIRED'),
bigquery.SchemaField('value', 'FLOAT', mode='REQUIRED')
]),
bigquery.SchemaField('timestamp', 'TIMESTAMP', mode='REQUIRED'),
]),
]