хранение большого количества списков с плавающей запятой разной длины для быстрого поиска на основе их метаданных - PullRequest
1 голос
/ 10 июля 2020

У меня есть серия файлов с именами 001,002 и c. каждый со своими собственными полями метаданных (иногда несколькими полями) ...

    001:
        values: [1.2, 3.4, 34.5]
        category: fruit
        rate: 50

    002:
        values: [4.2, 5.1, 5.1, 50.6, 10.5, 101.12]
        category: vegetable
        rate: 100

    003:
        ...

Файлы на самом деле имеют только поле values, и у меня есть фрейм данных для данных категории и скорости на основе имени файла, например 001 -> fruit, 50 et c.

Мне просто интересно, какая структура данных pythoni c лучше всего подходит для этого, чтобы я мог быстро извлечь список values для быстрого запроса. В идеале это могло бы быть облако, например, с использованием BigQuery, но я не знаю, есть ли лучшие решения. JSON естественно выглядит хорошо, но у меня будут тысячи файлов с длиной values от 50 до 1000 сек. Я хочу получить все эти списки на основе выбора, например, «все с фруктами категории».

Я думал о том, чтобы просто поместить все файлы в корзину GCP и иметь SQL БД, содержащую все метаданные для каждого файла, которые затем дают мне список имен файлов (которые содержат values) на основе заданного запроса - а затем просто выполнить массовую загрузку каждого файла, который соответствует критериям? Хотя это кажется странным. Я знаком с GCP SQL и peewee, hdf5, json, но просто не знаю, как с этим справиться.

Я ничего не знаю о поиске elasti c, но слышал, что это точно для чего это было сделано?

Любые идеи полезны, спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...