Я хочу выполнить проверку работоспособности огромного объема данных, который может быть как в RDBMS, так и в облачном хранилище файлов, например Amazon S3. Какой инструмент подойдет для проверки работоспособности данных, который может дать мне количество строк, строк, не соответствующих заданной схеме для проверки типа данных, средний объем за данный период времени и т. Д. c?
Я не хочу использовать какую-либо платформу bigdata, такую как Qubole или Databricks, из-за дополнительных затрат. Я нашел Drools , который может выполнять аналогичные операции, но для этого потребуется считывать полные данные в память и связываться с POJO перед проверкой. Будут признательны любые альтернативы, когда мне не нужно загружать полные данные в память.