У меня есть серия файлов с именами 001,002 и c. каждый со своими собственными полями метаданных (иногда несколькими полями) ...
001:
values: [1.2, 3.4, 34.5]
category: fruit
rate: 50
002:
values: [4.2, 5.1, 5.1, 50.6, 10.5, 101.12]
category: vegetable
rate: 100
003:
...
Файлы на самом деле имеют только поле values
, и у меня есть фрейм данных для данных категории и скорости на основе имени файла, например 001 -> fruit, 50 et c.
Мне просто интересно, какая структура данных pythoni c лучше всего подходит для этого, чтобы я мог быстро извлечь список values
для быстрого запроса. В идеале это могло бы быть облако, например, с использованием BigQuery, но я не знаю, есть ли лучшие решения. JSON естественно выглядит хорошо, но у меня будут тысячи файлов с длиной values
от 50 до 1000 сек. Я хочу получить все эти списки на основе выбора, например, «все с фруктами категории».
Я думал о том, чтобы просто поместить все файлы в корзину GCP и иметь SQL БД, содержащую все метаданные для каждого файла, которые затем дают мне список имен файлов (которые содержат values
) на основе заданного запроса - а затем просто выполнить массовую загрузку каждого файла, который соответствует критериям? Хотя это кажется странным. Я знаком с GCP SQL и peewee, hdf5, json, но просто не знаю, как с этим справиться.
Я ничего не знаю о поиске elasti c, но слышал, что это точно для чего это было сделано?
Любые идеи полезны, спасибо.