Avro поддерживает эволюцию схемы и хорошо подходит для такого рода проблем.
Если ваша система не требует загрузки данных с низкой задержкой, рассмотрите возможность получения данных в файлы в надежной файловой системе, а не загрузку непосредственно в действующую систему базы данных. Поддерживать работоспособность надежной файловой системы (например, HDFS) проще и с меньшей вероятностью перебоев, чем в действующей системе баз данных. Кроме того, разделение обязанностей гарантирует, что ваш трафик запросов никогда не повлияет на систему сбора данных.
Если вам нужно выполнить лишь несколько запросов, вы можете оставить файлы в их собственном формате и написать собственную карту для создания необходимых отчетов. Если вам нужен интерфейс более высокого уровня, рассмотрите возможность запуска Hive поверх собственных файлов данных. Hive позволит вам выполнять произвольные дружественные SQL-запросы к вашим файлам необработанных данных. Или, поскольку у вас есть только 150 МБ / день, вы можете просто загрузить его в виде сжатых таблиц MySQL только для чтения.
Если по какой-то причине вам нужна сложность интерактивной системы, HBase или Cassandra, или она вам подойдет, но учтите, что вы потратите значительное количество времени на игру в «DBA», а 150 МБ / день - это так мало данных что вам, вероятно, не нужна сложность.